Dados sintéticos — Glossário Aria Research

Definição estendida

Dados sintéticos são dados gerados artificialmente que reproduzem as propriedades estatísticas de um conjunto real sem expor os registros originais. A ideia é aprender a distribuição que gerou os dados reais e, a partir dela, amostrar novos exemplos plausíveis. Figueira e Vaz (2022) organizam as técnicas em duas grandes famílias: os métodos tradicionais, baseados em estatística, como redes bayesianas, árvores e o Synthpop, e os métodos de aprendizado profundo, como redes adversárias generativas, autoencoders variacionais, modelos de difusão e, mais recentemente, modelos de linguagem. A qualidade de um conjunto sintético é avaliada em três dimensões que costumam estar em tensão: fidelidade, a semelhança estatística com o dado real; utilidade, o desempenho de modelos treinados no sintético quando aplicados ao real; e privacidade, o risco de reidentificar indivíduos do conjunto original. Murtaza e colaboradores (2023), na revisão do domínio da saúde, mostram que não há uma métrica única de qualidade, e que a escolha do gerador depende do equilíbrio desejado entre essas três dimensões.

Quando se aplica

Os dados sintéticos se aplicam quando o dado real é escasso, caro de obter ou sensível demais para circular. Aplicam-se ao compartilhamento que preserva privacidade: um conjunto sintético pode ser publicado e reutilizado onde o dado original, protegido por legislação, não poderia. Aplicam-se ao aumento de dados, gerando exemplos adicionais para treinar modelos quando a amostra real é pequena, e ao balanceamento de classes raras. Aplicam-se ao desenvolvimento e teste de sistemas, fornecendo dados realistas sem expor registros reais. Dankar e Ibrahim (2021) oferecem diretrizes práticas para que o sintético seja útil de fato, mostrando que pré-processamento, ajuste e medida de utilidade afetam diretamente a qualidade do resultado. Em pesquisa, os dados sintéticos viabilizam reprodutibilidade ao permitir compartilhar um substituto quando o dado real não pode ser aberto.

Quando NÃO se aplica

Os dados sintéticos não se aplicam como garantia automática de privacidade. Um gerador que se ajusta demais ao original pode memorizar e revelar registros reais, e a privacidade só se sustenta quando medida explicitamente, não presumida. Não se aplicam como substituto perfeito do real: a fidelidade é parcial, e padrões sutis, correlações de cauda e estruturas longitudinais costumam se perder, o que Murtaza e colaboradores (2023) apontam como limitação recorrente. Não se aplicam sem validação por tarefa: um conjunto que parece estatisticamente fiel pode treinar modelos que falham no dado real. Não se aplicam para criar informação inexistente; o sintético amplia e protege o que já está nos dados, mas não inventa sinal novo. E não se aplicam onde herdam e amplificam o viés do conjunto de origem, risco que exige auditoria antes do uso.

Aplicações por área

Saúde: compartilhamento de dados de pacientes que preserva privacidade, com avaliação de risco de reidentificação antes da liberação.
Finanças: geração de dados transacionais para detecção de fraude e teste de sistemas sem expor registros de clientes.
Visão computacional: dados sintéticos de imagem para aumento e para cenários raros difíceis de coletar.
Pesquisa e reprodutibilidade: substituto publicável de um conjunto sensível, permitindo replicação sem abrir o dado real.

Armadilhas comuns

A primeira armadilha é presumir privacidade sem medi-la: sintético não é sinônimo de anônimo, e geradores que memorizam podem vazar registros reais. A segunda é confiar só em fidelidade estatística sem testar utilidade na tarefa-alvo. A terceira é ignorar o trade-off entre as três dimensões: maximizar privacidade costuma degradar fidelidade e utilidade, e o ponto de equilíbrio é uma decisão, não um padrão. A quarta é herdar o viés do dado de origem sem auditá-lo, propagando desigualdade para os modelos treinados. A quinta é tratar o sintético como criador de sinal novo, quando ele apenas reorganiza e protege a informação já presente, sem substituir a coleta de dado real quando esta é o que falta.