Quase toda a literatura de detecção de objetos é avaliada sobre dois mundos: ImageNet e COCO. São conjuntos enormes, bem rotulados e diversos, e por isso viraram a régua padrão. O problema aparece quando o detector deixa esse mundo. Imagem médica, sensoriamento remoto, monitoramento de fauna, inspeção industrial e ambiente submarino têm distribuições próprias de aparência, escala, iluminação e contexto, e um modelo com desempenho alto no benchmark padrão pode desabar quando o domínio de aplicação sai da distribuição de treino. O campo é maior do que o ImageNet, e tratar o número do benchmark como prova de prontidão para o domínio real é o erro que o parecerista procura primeiro.
A razão é que o deslocamento de domínio é a regra, não a exceção. Chen e colegas (2018)2 formulam o problema com clareza: a detecção assume que treino e teste vêm da mesma distribuição, e quando essa premissa falha, a queda de desempenho é significativa. O corolário é que o prior padrão nem sempre é o prior certo. Wang e colegas (2022)3 mostram que as imagens naturais do ImageNet têm um grande vão de domínio frente às imagens aéreas, de modo que o pré-treino padrão limita a detecção em sensoriamento remoto, enquanto um pré-treino na própria distribuição ajuda. E Schäfer e colegas (2024)4 levam o argumento à imagem biomédica: um modelo de base treinado em dados do domínio superou o pré-treino em ImageNet e precisou de muito menos dados para tarefas fora do domínio. Para um domínio especializado, o prior do domínio vence o prior padrão.
A magnitude dessa queda pode ser medida. Zhuang e colegas (2026)1 avaliaram um detector YOLOv7 num domínio bem fora do ImageNet, o monitoramento de suínos, comparando o desempenho dentro e fora do domínio de treino.
A leitura da figura é o argumento inteiro. O mesmo detector que marca 96,79% de mAP no seu domínio de treino cai para 60,18% quando a raça do animal muda, uma perda de cerca de 36 pontos sem que nada no modelo tenha sido alterado. O refinamento da arquitetura recupera para 74,31%, e a adaptação de domínio com geração de amostras leva a 85,52%, ainda abaixo do nível original. Vale a ressalva honesta de que essa queda específica mistura o deslocamento de domínio com a escassez de dados no alvo, já que o conjunto fora do domínio era pequeno; mas a direção é a mesma que aparece em todos os estudos de detecção fora da distribuição, e o ponto sobrevive: o desempenho no domínio de origem não prevê o desempenho no domínio de destino.
Há ainda a tentação de confiar na robustez do modelo padrão, e ela também não se transfere de graça. Yamada e Otani (2022)5 mostram que a robustez construída sobre a classificação no ImageNet não se carrega de forma confiável para a detecção de objetos nem para a classificação em outros domínios. Um modelo validado no ImageNet está validado para o ImageNet, não para a clínica, o satélite ou o curral. Tratar uma coisa como a outra é exatamente onde a engenharia de detecção falha quando sai do laboratório.
O custo de ignorar essa distância aparece no campo, não no artigo. Um detector que passa no benchmark e é levado direto para a operação real costuma falhar de formas que o conjunto público não previa: perde objetos sob iluminação diferente, confunde classes raras que mal apareciam no treino, gera falsos positivos em texturas que o domínio padrão não continha. Em aplicações consequentes, como diagnóstico por imagem ou contagem de fauna ameaçada, esse erro silencioso é pior do que a ausência de modelo, porque vem embrulhado num número de benchmark que dá falsa confiança. A diferença entre um sistema que funciona e um que apenas pontua bem está em ter medido o detector onde ele de fato vai operar, com os objetos, as condições e a frequência de classes do destino, antes de confiar nele. O benchmark abre a investigação; ele não a encerra.
A regra operacional segue direta. Nunca presumir que o desempenho no benchmark padrão se transfere para o domínio de aplicação; medir o detector nos dados reais do destino, e não só no conjunto público. Orçar explicitamente o deslocamento de domínio no projeto, prevendo dados rotulados do domínio, pré-treino específico do domínio quando ele existe, e técnicas de adaptação quando os dados de destino são escassos. Reportar o desempenho cruzado, dentro e fora do domínio, em vez de exibir apenas o número favorável do benchmark. E declarar a fronteira de aplicação do modelo, a faixa de condições em que ele foi de fato avaliado. Detecção de objetos fora do ImageNet não é uma extensão trivial do benchmark; é um problema próprio, com a sua própria distribuição e as suas próprias falhas, que precisa ser medido onde o modelo vai realmente operar, e não apenas onde ele foi treinado.