IA e machine learning

Detecção de objetos fora do ImageNet: quando o domínio sai do treino

Quase toda detecção de objetos é avaliada em ImageNet ou COCO, mas os domínios reais de aplicação têm distribuições próprias. Um detector com alto desempenho no benchmark padrão pode desabar quando o domínio sai do treino. Num estudo, o mesmo detector caiu de 96,79% para 60,18% de mAP fora do domínio. O benchmark padrão não é a validação do domínio de aplicação.

Quase toda a literatura de detecção de objetos é avaliada sobre dois mundos: ImageNet e COCO. São conjuntos enormes, bem rotulados e diversos, e por isso viraram a régua padrão. O problema aparece quando o detector deixa esse mundo. Imagem médica, sensoriamento remoto, monitoramento de fauna, inspeção industrial e ambiente submarino têm distribuições próprias de aparência, escala, iluminação e contexto, e um modelo com desempenho alto no benchmark padrão pode desabar quando o domínio de aplicação sai da distribuição de treino. O campo é maior do que o ImageNet, e tratar o número do benchmark como prova de prontidão para o domínio real é o erro que o parecerista procura primeiro.

A razão é que o deslocamento de domínio é a regra, não a exceção. Chen e colegas (2018)2 formulam o problema com clareza: a detecção assume que treino e teste vêm da mesma distribuição, e quando essa premissa falha, a queda de desempenho é significativa. O corolário é que o prior padrão nem sempre é o prior certo. Wang e colegas (2022)3 mostram que as imagens naturais do ImageNet têm um grande vão de domínio frente às imagens aéreas, de modo que o pré-treino padrão limita a detecção em sensoriamento remoto, enquanto um pré-treino na própria distribuição ajuda. E Schäfer e colegas (2024)4 levam o argumento à imagem biomédica: um modelo de base treinado em dados do domínio superou o pré-treino em ImageNet e precisou de muito menos dados para tarefas fora do domínio. Para um domínio especializado, o prior do domínio vence o prior padrão.

A magnitude dessa queda pode ser medida. Zhuang e colegas (2026)1 avaliaram um detector YOLOv7 num domínio bem fora do ImageNet, o monitoramento de suínos, comparando o desempenho dentro e fora do domínio de treino.

Gráfico de barras com o mAP do mesmo detector: 96,79% no domínio, 60,18% fora do domínio, 74,31% com refinamento e 85,52% com adaptação de domínio.
mAP do mesmo detector YOLOv7 dentro e fora do domínio de treino, na medição de Zhuang e colegas (2026). O modelo cai de 96,79% para 60,18% ao mudar de raça; refinamento e adaptação de domínio recuperam para 74,31% e 85,52%, ainda abaixo do nível no domínio.

A leitura da figura é o argumento inteiro. O mesmo detector que marca 96,79% de mAP no seu domínio de treino cai para 60,18% quando a raça do animal muda, uma perda de cerca de 36 pontos sem que nada no modelo tenha sido alterado. O refinamento da arquitetura recupera para 74,31%, e a adaptação de domínio com geração de amostras leva a 85,52%, ainda abaixo do nível original. Vale a ressalva honesta de que essa queda específica mistura o deslocamento de domínio com a escassez de dados no alvo, já que o conjunto fora do domínio era pequeno; mas a direção é a mesma que aparece em todos os estudos de detecção fora da distribuição, e o ponto sobrevive: o desempenho no domínio de origem não prevê o desempenho no domínio de destino.

Há ainda a tentação de confiar na robustez do modelo padrão, e ela também não se transfere de graça. Yamada e Otani (2022)5 mostram que a robustez construída sobre a classificação no ImageNet não se carrega de forma confiável para a detecção de objetos nem para a classificação em outros domínios. Um modelo validado no ImageNet está validado para o ImageNet, não para a clínica, o satélite ou o curral. Tratar uma coisa como a outra é exatamente onde a engenharia de detecção falha quando sai do laboratório.

O custo de ignorar essa distância aparece no campo, não no artigo. Um detector que passa no benchmark e é levado direto para a operação real costuma falhar de formas que o conjunto público não previa: perde objetos sob iluminação diferente, confunde classes raras que mal apareciam no treino, gera falsos positivos em texturas que o domínio padrão não continha. Em aplicações consequentes, como diagnóstico por imagem ou contagem de fauna ameaçada, esse erro silencioso é pior do que a ausência de modelo, porque vem embrulhado num número de benchmark que dá falsa confiança. A diferença entre um sistema que funciona e um que apenas pontua bem está em ter medido o detector onde ele de fato vai operar, com os objetos, as condições e a frequência de classes do destino, antes de confiar nele. O benchmark abre a investigação; ele não a encerra.

A regra operacional segue direta. Nunca presumir que o desempenho no benchmark padrão se transfere para o domínio de aplicação; medir o detector nos dados reais do destino, e não só no conjunto público. Orçar explicitamente o deslocamento de domínio no projeto, prevendo dados rotulados do domínio, pré-treino específico do domínio quando ele existe, e técnicas de adaptação quando os dados de destino são escassos. Reportar o desempenho cruzado, dentro e fora do domínio, em vez de exibir apenas o número favorável do benchmark. E declarar a fronteira de aplicação do modelo, a faixa de condições em que ele foi de fato avaliado. Detecção de objetos fora do ImageNet não é uma extensão trivial do benchmark; é um problema próprio, com a sua própria distribuição e as suas próprias falhas, que precisa ser medido onde o modelo vai realmente operar, e não apenas onde ele foi treinado.

Referências

  1. Zhuang, Y.; Xu, L.; Jiang, J.; et al. (2026). Cross-Breed Few-Shot Learning for Pig Detection via Improved YOLOv7 and CycleGAN-Based Sample Generation https://doi.org/10.3390/biology15080623
  2. Chen, Y.; Li, W.; Sakaridis, C.; Dai, D.; Van Gool, L. (2018). Domain Adaptive Faster R-CNN for Object Detection in the Wild https://doi.org/10.1109/CVPR.2018.00352
  3. Wang, D.; Zhang, J.; Du, B.; et al. (2022). An Empirical Study of Remote Sensing Pretraining https://doi.org/10.1109/TGRS.2022.3176603
  4. Schäfer, R.; Nicke, T.; Höfener, H.; et al. (2024). Overcoming data scarcity in biomedical imaging with a foundational multi-task model https://doi.org/10.1038/s43588-024-00662-z
  5. Yamada, Y.; Otani, M. (2022). Does Robustness on ImageNet Transfer to Downstream Tasks? https://doi.org/10.1109/CVPR52688.2022.00910

Esta análise reflete a operação da Aria em Visão Computacional e Pipeline Completo de Data Science.

Se o seu projeto está em um ponto onde esse tipo de leitura é útil, considere apresentar o manuscrito ou os dados para um diagnóstico técnico em até 48 horas úteis.

Solicitar orçamento