Redes adversárias generativas (GANs) — Glossário Aria Research

Definição estendida

Redes adversárias generativas (generative adversarial networks, GANs) são uma classe de modelos generativos em que duas redes neurais competem em um jogo de soma quase nula. O gerador produz amostras a partir de ruído, tentando imitar a distribuição dos dados reais; o discriminador recebe amostras reais e geradas e tenta separá-las. O treino é a busca de um equilíbrio: o gerador melhora ao enganar o discriminador, e o discriminador melhora ao não ser enganado. Goodfellow e colaboradores (2014, reeditado em 2020) formalizaram esse esquema minimax e mostraram que, no ponto ideal, o gerador reproduz a distribuição dos dados e o discriminador não consegue distinguir melhor que o acaso. Gui e colaboradores (2023), na revisão de referência, organizam a família em variantes de arquitetura, de função-objetivo e de aplicação, e tratam a estabilidade do treino como o problema central que motivou a maioria das variantes propostas.

Quando se aplica

As GANs se aplicam quando se quer geração rápida e de alta nitidez em um único passo: ao contrário da difusão, o gerador produz a amostra em uma só passagem, o que as mantém competitivas onde a latência importa. Creswell e colaboradores (2018) documentam o uso em síntese de imagem, tradução imagem-para-imagem, super-resolução e edição. Aplicam-se bem a aumento de dados, gerando exemplos sintéticos plausíveis para treinar outros modelos quando o dado real é escasso ou sensível. Aplicam-se a transferência de estilo e a problemas em que um par de domínios precisa ser alinhado sem supervisão direta. Em pesquisa, seguem úteis como linha de base generativa e em cenários de borda, onde o custo de inferência da difusão é proibitivo.

Quando NÃO se aplica

As GANs não se aplicam bem quando a estabilidade do treino é crítica e os recursos de ajuste são limitados. O treino adversário é notoriamente instável e sujeito ao colapso de modo, em que o gerador passa a produzir poucas amostras quase idênticas, ignorando a diversidade dos dados; Gui e colaboradores (2023) tratam esse problema como recorrente em toda a família. Não se aplicam quando se exige uma verossimilhança explícita: a GAN não estima a densidade dos dados, o que impede o cálculo direto de probabilidade de uma amostra. Não se aplicam como melhor escolha para a fronteira de qualidade em imagem, posição hoje ocupada pelos modelos de difusão, que oferecem cobertura de modos superior. E não se aplicam sem avaliação cuidadosa: a nitidez de uma amostra não garante que o gerador cobriu a distribuição.

Aplicações por área

Visão computacional: síntese e edição de imagem, super-resolução e tradução entre domínios, com geração em passo único.
Imagem médica: geração de imagens sintéticas para aumento de dados e anonimização, com a ressalva de validar realismo clínico e ausência de memorização.
Privacidade e dados sensíveis: produção de dados sintéticos que preservam padrões estatísticos sem expor registros reais.
Arte e design: transferência de estilo e geração condicional, onde o controle interativo e a velocidade favorecem o uso.

Armadilhas comuns

A primeira armadilha é subestimar a instabilidade do treino: sem ajuste cuidadoso de arquitetura, função-objetivo e taxa de aprendizado, a GAN diverge ou colapsa. A segunda é confundir nitidez com cobertura: uma GAN pode gerar imagens belíssimas e ainda assim ignorar regiões inteiras da distribuição real, falha que o colapso de modo torna invisível a olho nu. A terceira é avaliar só por inspeção visual, sem métricas de diversidade, deixando o colapso passar despercebido. A quarta é tratar dados sintéticos de GAN como reais sem auditar viés e memorização do treino, risco sério em domínios sensíveis. A quinta é escolher GAN por inércia quando a tarefa pede fidelidade de fronteira, caso em que a difusão costuma ser a opção tecnicamente superior.