Definição estendida
Redes adversárias generativas (generative adversarial networks, GANs) são uma classe de modelos generativos em que duas redes neurais competem em um jogo de soma quase nula. O gerador produz amostras a partir de ruído, tentando imitar a distribuição dos dados reais; o discriminador recebe amostras reais e geradas e tenta separá-las. O treino é a busca de um equilíbrio: o gerador melhora ao enganar o discriminador, e o discriminador melhora ao não ser enganado. Goodfellow e colaboradores (2014, reeditado em 2020) formalizaram esse esquema minimax e mostraram que, no ponto ideal, o gerador reproduz a distribuição dos dados e o discriminador não consegue distinguir melhor que o acaso. Gui e colaboradores (2023), na revisão de referência, organizam a família em variantes de arquitetura, de função-objetivo e de aplicação, e tratam a estabilidade do treino como o problema central que motivou a maioria das variantes propostas.
Quando se aplica
As GANs se aplicam quando se quer geração rápida e de alta nitidez em um único passo: ao contrário da difusão, o gerador produz a amostra em uma só passagem, o que as mantém competitivas onde a latência importa. Creswell e colaboradores (2018) documentam o uso em síntese de imagem, tradução imagem-para-imagem, super-resolução e edição. Aplicam-se bem a aumento de dados, gerando exemplos sintéticos plausíveis para treinar outros modelos quando o dado real é escasso ou sensível. Aplicam-se a transferência de estilo e a problemas em que um par de domínios precisa ser alinhado sem supervisão direta. Em pesquisa, seguem úteis como linha de base generativa e em cenários de borda, onde o custo de inferência da difusão é proibitivo.
Quando NÃO se aplica
As GANs não se aplicam bem quando a estabilidade do treino é crítica e os recursos de ajuste são limitados. O treino adversário é notoriamente instável e sujeito ao colapso de modo, em que o gerador passa a produzir poucas amostras quase idênticas, ignorando a diversidade dos dados; Gui e colaboradores (2023) tratam esse problema como recorrente em toda a família. Não se aplicam quando se exige uma verossimilhança explícita: a GAN não estima a densidade dos dados, o que impede o cálculo direto de probabilidade de uma amostra. Não se aplicam como melhor escolha para a fronteira de qualidade em imagem, posição hoje ocupada pelos modelos de difusão, que oferecem cobertura de modos superior. E não se aplicam sem avaliação cuidadosa: a nitidez de uma amostra não garante que o gerador cobriu a distribuição.
Aplicações por área
- Visão computacional: síntese e edição de imagem, super-resolução e tradução entre domínios, com geração em passo único.
- Imagem médica: geração de imagens sintéticas para aumento de dados e anonimização, com a ressalva de validar realismo clínico e ausência de memorização.
- Privacidade e dados sensíveis: produção de dados sintéticos que preservam padrões estatísticos sem expor registros reais.
- Arte e design: transferência de estilo e geração condicional, onde o controle interativo e a velocidade favorecem o uso.
Armadilhas comuns
A primeira armadilha é subestimar a instabilidade do treino: sem ajuste cuidadoso de arquitetura, função-objetivo e taxa de aprendizado, a GAN diverge ou colapsa. A segunda é confundir nitidez com cobertura: uma GAN pode gerar imagens belíssimas e ainda assim ignorar regiões inteiras da distribuição real, falha que o colapso de modo torna invisível a olho nu. A terceira é avaliar só por inspeção visual, sem métricas de diversidade, deixando o colapso passar despercebido. A quarta é tratar dados sintéticos de GAN como reais sem auditar viés e memorização do treino, risco sério em domínios sensíveis. A quinta é escolher GAN por inércia quando a tarefa pede fidelidade de fronteira, caso em que a difusão costuma ser a opção tecnicamente superior.