Aprendizado zero-shot e few-shot — Glossário Aria Research

Definição estendida

Aprendizado zero-shot e few-shot são regimes em que um modelo precisa resolver uma tarefa sem nenhum exemplo rotulado da classe-alvo, no caso zero-shot, ou com pouquíssimos, no caso few-shot. A motivação é a escassez: rotular dados é caro, e muitas classes têm poucos ou nenhum exemplo. No aprendizado de máquina clássico, o zero-shot se apoia em informação semântica auxiliar, como atributos que descrevem uma classe nunca vista, permitindo reconhecê-la a partir de sua descrição. Xian e colaboradores (2019) sistematizam essa abordagem em visão e mostram, com um benchmark unificado, como protocolos de avaliação inconsistentes inflavam resultados. O few-shot, por sua vez, usa conhecimento prévio para generalizar de poucos exemplos; Wang e colaboradores (2020), na revisão de referência, organizam os métodos em três frentes: aumento de dados, restrição do espaço de hipóteses e adaptação do algoritmo de busca. Nos modelos de linguagem, esses regimes ganharam uma forma nova: o aprendizado em contexto, em que a tarefa é especificada no próprio prompt, com nenhum exemplo (zero-shot) ou alguns exemplos (few-shot), sem atualizar os pesos do modelo.

Quando se aplica

O zero-shot e o few-shot se aplicam quando rotular dados da tarefa-alvo é inviável ou caro demais. Aplicam-se a problemas de cauda longa, com muitas classes raras, e a domínios que mudam rápido, em que coletar e rotular para cada nova categoria não acompanha o ritmo. Em modelos de linguagem, aplicam-se ao uso cotidiano: pedir uma tarefa sem exemplo é zero-shot, e incluir alguns exemplos no prompt costuma melhorar o resultado, o few-shot, sem custo de treino. Wang e colaboradores (2019) catalogam aplicações de zero-shot em visão, linguagem e recuperação de informação. Aplicam-se como alternativa ao fine-tuning quando não há dado nem orçamento para ajustar o modelo, e como linha de base rápida antes de investir em rotulagem.

Quando NÃO se aplica

Esses regimes não se aplicam quando há dados rotulados abundantes e a tarefa é estável: nesse caso, o treino supervisionado ou o fine-tuning entregam desempenho superior e mais confiável. O zero-shot não se aplica sem informação semântica auxiliar de qualidade; descrições pobres ou enganosas das classes derrubam o desempenho. O few-shot por exemplos no prompt não se aplica de forma estável: a escolha, a ordem e o formato dos exemplos afetam muito o resultado, e Xian e colaboradores (2019) alertam que avaliação descuidada superestima a capacidade real. Não se aplicam quando o custo de erro é alto e a confiança precisa ser garantida, pois a generalização a partir de pouco ou nenhum exemplo é frágil. E não se aplicam como substituto de dados quando o sinal simplesmente não existe na informação disponível.

Aplicações por área

Processamento de linguagem: uso de modelos de linguagem via prompt, com nenhum ou poucos exemplos, sem ajuste de pesos.
Visão computacional: reconhecimento de classes nunca vistas a partir de atributos semânticos que as descrevem.
Recuperação de informação: classificação e busca em categorias novas sem dado rotulado específico.
Domínios de cauda longa: áreas com muitas classes raras, em que rotular cada categoria é inviável.

Armadilhas comuns

A primeira armadilha é tratar zero-shot e few-shot como equivalentes a um modelo supervisionado bem treinado: a generalização a partir de pouco é mais frágil e variável. A segunda é, no prompt, ignorar a sensibilidade à seleção e à ordem dos exemplos, que mudam o resultado de forma significativa. A terceira é avaliar com protocolo descuidado, contaminando o teste com classes vistas e superestimando a capacidade. A quarta é depender de informação semântica auxiliar pobre no zero-shot, esperando reconhecimento de descrições vagas. A quinta é escolher esses regimes por inércia quando há dado rotulado disponível, abrindo mão do desempenho superior que o treino supervisionado ou o fine-tuning ofereceriam.