Detecção de objetos fora do ImageNet: quando o domínio sai do treino

Quase toda a literatura de detecção de objetos é avaliada sobre dois mundos: ImageNet e COCO. São conjuntos enormes, bem rotulados e diversos, e por isso viraram a régua padrão. O problema aparece quando o detector deixa esse mundo. Imagem médica, sensoriamento remoto, monitoramento de fauna, inspeção industrial e ambiente submarino têm distribuições próprias de aparência, escala, iluminação e contexto, e um modelo com desempenho alto no benchmark padrão pode desabar quando o domínio de aplicação sai da distribuição de treino. O campo é maior do que o ImageNet, e tratar o número do benchmark como prova de prontidão para o domínio real é o erro que o parecerista procura primeiro.

A razão é que o deslocamento de domínio é a regra, não a exceção. Chen e colegas (2018)² formulam o problema com clareza: a detecção assume que treino e teste vêm da mesma distribuição, e quando essa premissa falha, a queda de desempenho é significativa. O corolário é que o prior padrão nem sempre é o prior certo. Wang e colegas (2022)³ mostram que as imagens naturais do ImageNet têm um grande vão de domínio frente às imagens aéreas, de modo que o pré-treino padrão limita a detecção em sensoriamento remoto, enquanto um pré-treino na própria distribuição ajuda. E Schäfer e colegas (2024)⁴ levam o argumento à imagem biomédica: um modelo de base treinado em dados do domínio superou o pré-treino em ImageNet e precisou de muito menos dados para tarefas fora do domínio. Para um domínio especializado, o prior do domínio vence o prior padrão.

A magnitude dessa queda pode ser medida. Zhuang e colegas (2026)¹ avaliaram um detector YOLOv7 num domínio bem fora do ImageNet, o monitoramento de suínos, comparando o desempenho dentro e fora do domínio de treino.

Gráfico de barras com o mAP do mesmo detector: 96,79% no domínio, 60,18% fora do domínio, 74,31% com refinamento e 85,52% com adaptação de domínio. — mAP do mesmo detector YOLOv7 dentro e fora do domínio de treino, na medição de Zhuang e colegas (2026). O modelo cai de 96,79% para 60,18% ao mudar de raça; refinamento e adaptação de domínio recuperam para 74,31% e 85,52%, ainda abaixo do nível no domínio.

A leitura da figura é o argumento inteiro. O mesmo detector que marca 96,79% de mAP no seu domínio de treino cai para 60,18% quando a raça do animal muda, uma perda de cerca de 36 pontos sem que nada no modelo tenha sido alterado. O refinamento da arquitetura recupera para 74,31%, e a adaptação de domínio com geração de amostras leva a 85,52%, ainda abaixo do nível original. Vale a ressalva honesta de que essa queda específica mistura o deslocamento de domínio com a escassez de dados no alvo, já que o conjunto fora do domínio era pequeno; mas a direção é a mesma que aparece em todos os estudos de detecção fora da distribuição, e o ponto sobrevive: o desempenho no domínio de origem não prevê o desempenho no domínio de destino.

Há ainda a tentação de confiar na robustez do modelo padrão, e ela também não se transfere de graça. Yamada e Otani (2022)⁵ mostram que a robustez construída sobre a classificação no ImageNet não se carrega de forma confiável para a detecção de objetos nem para a classificação em outros domínios. Um modelo validado no ImageNet está validado para o ImageNet, não para a clínica, o satélite ou o curral. Tratar uma coisa como a outra é exatamente onde a engenharia de detecção falha quando sai do laboratório.

O custo de ignorar essa distância aparece no campo, não no artigo. Um detector que passa no benchmark e é levado direto para a operação real costuma falhar de formas que o conjunto público não previa: perde objetos sob iluminação diferente, confunde classes raras que mal apareciam no treino, gera falsos positivos em texturas que o domínio padrão não continha. Em aplicações consequentes, como diagnóstico por imagem ou contagem de fauna ameaçada, esse erro silencioso é pior do que a ausência de modelo, porque vem embrulhado num número de benchmark que dá falsa confiança. A diferença entre um sistema que funciona e um que apenas pontua bem está em ter medido o detector onde ele de fato vai operar, com os objetos, as condições e a frequência de classes do destino, antes de confiar nele. O benchmark abre a investigação; ele não a encerra.

A regra operacional segue direta. Nunca presumir que o desempenho no benchmark padrão se transfere para o domínio de aplicação; medir o detector nos dados reais do destino, e não só no conjunto público. Orçar explicitamente o deslocamento de domínio no projeto, prevendo dados rotulados do domínio, pré-treino específico do domínio quando ele existe, e técnicas de adaptação quando os dados de destino são escassos. Reportar o desempenho cruzado, dentro e fora do domínio, em vez de exibir apenas o número favorável do benchmark. E declarar a fronteira de aplicação do modelo, a faixa de condições em que ele foi de fato avaliado. Detecção de objetos fora do ImageNet não é uma extensão trivial do benchmark; é um problema próprio, com a sua própria distribuição e as suas próprias falhas, que precisa ser medido onde o modelo vai realmente operar, e não apenas onde ele foi treinado.

Detecção de objetos fora do ImageNet: quando o domínio sai do treino

Referências

Esta análise reflete a operação da Aria em Visão Computacional e Pipeline Completo de Data Science.

Referências

Esta análise reflete a operação da Aria em Visão Computacional e Pipeline Completo de Data Science.

Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

IA generativa em revisão sistemática: ferramenta ou atalho?

Modelagem preditiva em ciências sociais: por que o AUC sozinho não basta