Modelos de difusão — Glossário Aria Research

Definição estendida

Modelos de difusão são uma família de modelos generativos profundos que aprendem a sintetizar dados invertendo um processo de ruído. O mecanismo tem dois estágios. No estágio direto, ruído gaussiano é adicionado aos dados em muitos passos pequenos, até que a amostra original se torne ruído puro. No estágio reverso, uma rede neural aprende a desfazer esse processo passo a passo, partindo do ruído e recuperando uma amostra coerente com a distribuição dos dados. Croitoru e colaboradores (2023) organizam o campo em três formulações equivalentes: os modelos probabilísticos de difusão para remoção de ruído (DDPM), as redes condicionadas a ruído baseadas em escore e a formulação por equações diferenciais estocásticas. Yang e colaboradores (2023), na revisão de referência, mostram que essas três visões descrevem o mesmo princípio e organizam a pesquisa em torno de amostragem eficiente, melhor estimação de verossimilhança e tratamento de dados com estrutura especial. A difusão latente, que opera em um espaço comprimido em vez do pixel bruto, é o que viabilizou a geração de imagem em escala prática.

Quando se aplica

Os modelos de difusão se aplicam quando a tarefa é gerar dados de alta fidelidade com boa cobertura de modos: síntese de imagem, vídeo, áudio e desenho de moléculas. Cao e colaboradores (2024) documentam por que a difusão se tornou o paradigma dominante: ela alcança qualidade e diversidade superiores às das redes adversárias generativas e treina de forma mais estável, sem o colapso de modo que afeta as GANs. Aplica-se bem a geração condicional, em que a saída é guiada por texto, máscara semântica ou imagem de referência, base dos sistemas de texto para imagem. Aplica-se também a problemas inversos de baixo nível, como super-resolução, remoção de ruído e preenchimento, onde a difusão funciona como um prior generativo forte. Em pesquisa, é o motor por trás de dados sintéticos de imagem usados para aumento de dados.

Quando NÃO se aplica

Os modelos de difusão não se aplicam bem quando a latência importa. A amostragem iterativa exige dezenas a centenas de avaliações da rede, o que os torna lentos e caros em comparação com uma GAN, que gera em um único passo; Yang e colaboradores (2023) tratam a amostragem eficiente como o principal problema aberto justamente por isso. Não se aplicam sem custo computacional relevante: treino e inferência consomem memória e energia que inviabilizam o uso em dispositivos de borda sem compressão. Não se aplicam como solução para dados escassos: a qualidade depende de grandes volumes de treino, e em regimes pequenos outros métodos competem melhor. E não se aplicam onde a interpretabilidade do processo gerador é exigida, já que a trajetória de remoção de ruído não oferece uma explicação direta da amostra produzida.

Aplicações por área

Visão computacional: geração e edição de imagem de alta resolução, super-resolução, inpainting e tradução imagem-para-imagem com prior de difusão.
Imagem médica: reconstrução, remoção de ruído e geração de imagens sintéticas para aumento de dados, com a ressalva de validar fidelidade clínica.
Ciências da vida e química: desenho de moléculas e de estruturas, onde a difusão amostra candidatos de um espaço de alta dimensão.
Áudio e vídeo: síntese de fala e de sequências temporais, áreas em que a cobertura de modos da difusão supera a de modelos anteriores.

Armadilhas comuns

A primeira armadilha é ignorar o custo de amostragem: prototipar com um modelo de difusão sem dimensionar o número de passos leva a inferência inviável em produção. A segunda é confundir difusão latente com difusão em pixel: operar no espaço latente muda radicalmente o custo e a qualidade, e tratar as duas como equivalentes engana o planejamento. A terceira é supor que mais passos sempre melhoram a saída; há um ponto de retorno decrescente, e a escolha do amostrador importa tanto quanto o número de passos. A quarta é usar imagens sintéticas de difusão como dado real sem verificar viés e vazamento de memorização do treino. A quinta é avaliar a geração só por uma métrica como o FID, que captura fidelidade agregada mas não detecta falhas semânticas, artefatos locais ou falta de aderência à condição fornecida.