AUC 0,95 não publica em Q1: o que pareceristas leem em manuscritos de visão computacional médica

A literatura de visão computacional aplicada a imagens médicas tem dois extremos publicados, ambos em periódicos Q1, ambos canônicos em qualquer revisão de literatura. De um lado, modelos que reportam métricas que se aproximam de desempenho de especialistas em datasets curados. Do outro, estudos que demonstram que essas mesmas métricas colapsam quando o modelo é avaliado em dados de outro hospital, outro equipamento, ou outra população. A distância entre esses dois extremos é o que define se um manuscrito de visão computacional médica passa do desk reject em periódicos como JAMA, Nature Medicine, Radiology: Artificial Intelligence ou BMJ. Não é a métrica. É o que se faz com a métrica.

Barras horizontais comparando AUC interno e externo em seis estudos canônicos de visão computacional médica; a queda é máxima em Xin 2021, de 0,95 para 0,54 — Queda de desempenho entre validação interna e externa em seis estudos canônicos de visão computacional médica. Gulshan e colegas (2016) reportaram AUC 0,99 em EyePACS-1 e Messidor-2; Voets, Møllersen e Bongo (2019) tentaram reproduzir o método em dados públicos e obtiveram AUC 0,85 em Messidor-2; Zech e colegas (2018) treinaram em NIH e MSH e mediram queda significativa de AUC ao testar em IU. Xin e colegas (2021), em destaque, mostram a magnitude máxima do efeito: AUC interno de 0,95 colapsa para 0,54 ao testar fora do dataset de treino. O padrão se repete em outros venues e modalidades, e é justamente o que pareceristas Q1 procuram quando abrem a seção de validação.

A distância entre os dois extremos não é anomalia metodológica isolada, é o cenário base da última década. Reconhecendo esse padrão, três grupos editoriais consolidaram entre 2020 e 2025 frameworks de reporte específicos para inteligência artificial em imagem médica, e pareceristas treinados nesses periódicos abrem manuscritos procurando aderência explícita aos checklists. Quem não os conhece publica em Q2 ou Q3. Quem os domina escreve a seção de resultados de maneira que o parecer venha favorável.

A literatura entre dois extremos

O que CheXNet, Gulshan e a onda de 2016 estabeleceram

Em dezembro de 2016, Varun Gulshan e colegas publicaram no JAMA o que se tornaria o paper-âncora da onda de visão computacional médica: um algoritmo de aprendizado profundo treinado em 128.175 imagens de fundo de olho com graduação por painel de 54 oftalmologistas, alcançando AUC de 0,991 no conjunto EyePACS-1 e 0,990 em Messidor-2 para retinopatia diabética referenciável ¹. O resultado teve impacto editorial imediato. Em poucos meses, papers análogos começaram a sair em outras modalidades e patologias, todos com a mesma narrativa: rede convolucional treinada em dezenas de milhares de imagens, comparada a painel de especialistas, AUC próximo de 1,0 em conjunto de validação. O ciclo se replicou em radiografias de tórax, lesões dermatológicas, ressonâncias cardíacas, imagens oftalmológicas.

Em novembro de 2018, Pranav Rajpurkar e colegas estenderam o argumento para tórax. O CheXNeXt, sucessor peer-reviewed do CheXNet original em preprint, foi treinado para detectar 14 patologias em radiografias frontais e atingiu desempenho equivalente ao de radiologistas certificados em 11 das 14 condições ⁴. O paper teve duas centenas de citações em meses e consolidou a expectativa de que visão computacional para imagem médica era um problema resolvido. A maior parte do material que circula em conferências de IA aplicada à medicina ainda opera nessa narrativa.

A queda quando o modelo sai do dataset de treino

Em paralelo a essa onda, três grupos independentes começaram a publicar resultados desconfortáveis. O mais influente saiu em novembro de 2018 na PLOS Medicine. John Zech e colegas treinaram redes convolucionais em radiografias de tórax de três sistemas hospitalares (NIH, Mount Sinai e Indiana University) e mediram sistematicamente o que acontecia quando o modelo era avaliado em dados de outro hospital. O resultado central foi inequívoco: em três das cinco comparações naturais, o desempenho externo foi significativamente inferior ao interno. Pior, as redes aprenderam a detectar com 99,95% de acurácia o sistema hospitalar de origem de uma radiografia, ajustando suas predições com base nessa informação ³. O modelo não estava aprendendo pneumonia. Estava aprendendo a distinguir hospitais.

Em paralelo, Mike Voets, Kajsa Møllersen e Lars Ailo Bongo tentaram reproduzir os resultados de Gulshan usando dados públicos. Replicaram o método porque o código-fonte não estava disponível. Treinaram em EyePACS-Kaggle e testaram em Messidor-2. O AUC obtido em Messidor-2 foi de 0,853, frente aos 0,990 reportados pelo paper original ². A diferença não era marginal. A reprodução simplesmente não validou o resultado. Os autores foram explícitos sobre as recomendações que tiraram do exercício: usar dados públicos ou descrever a curadoria em detalhe, publicar o código-fonte, e detalhar todos os hiperparâmetros e pré-processamentos. Sem isso, o trabalho não se sustenta na revisão metodológica.

O padrão se replica em outras modalidades. Em pediatria, modelos treinados em radiografias de Guangzhou para detectar pneumonia atingiram AUC de 0,95 no conjunto interno e caíram para 0,54 em radiografias do NIH ChestXray14. A diferença entre essas duas situações não é estatística, é editorial. Em 2026, pareceristas Q1 não aceitam mais o primeiro número sem o segundo, e a presença do paper de Zech na bibliografia da seção de discussão é praticamente obrigatória em qualquer manuscrito que reporte performance interna acima de 0,90.

STARD-AI, TRIPOD+AI e CLAIM como gates editoriais

O que cada framework exige

Três grupos editoriais formalizaram a expectativa de reporte entre 2020 e 2025. O primeiro a sair foi a CLAIM, Checklist for Artificial Intelligence in Medical Imaging, publicada em março de 2020 em Radiology: Artificial Intelligence por John Mongan, Linda Moy e Charles Kahn. O checklist tem 42 itens distribuídos em sumário, introdução, métodos, resultados, discussão e outras informações, e foi desenhada especificamente para imagem médica, incluindo itens sobre desidentificação, manuseio de dados faltantes, racional para o gold standard, mapas de interpretabilidade, e análise de falha ⁵. A CLAIM ganhou atualização em 2024 incorporando aprendizados de quatro anos de uso, mas a estrutura permanece a referência editorial para qualquer manuscrito de imagem médica submetido a periódicos da RSNA.

Em abril de 2024, Gary Collins e colegas publicaram no BMJ a extensão TRIPOD+AI, atualização do TRIPOD original de 2015 para modelos preditivos que usam aprendizado de máquina. A nova versão consolida 27 itens de reporte e introduz um checklist específico para abstracts, com ênfase em transparência sobre origem dos dados, definição da população, manipulação de variáveis, validação interna e externa, e calibração do modelo ⁶. O TRIPOD original tinha 22 itens e era usado em mais da metade dos periódicos top de medicina; a versão TRIPOD+AI substitui completamente a anterior e é hoje o framework de referência para modelos preditivos clínicos.

Completando o trio, em setembro de 2025 Viknesh Sounderajah e o consórcio STARD-AI publicaram em Nature Medicine a extensão STARD-AI para estudos de acurácia diagnóstica com inteligência artificial. O documento adiciona 18 itens novos ou modificados ao STARD 2015, com foco em descrição do dataset, índice de teste por IA e como foi avaliado, e considerações explícitas sobre viés algorítmico e fairness ⁷. O processo de elaboração envolveu mais de 240 stakeholders internacionais, e o checklist final cobre exatamente o tipo de informação que pareceristas em JAMA, Lancet Digital Health e Nature Medicine esperam ver desde 2024.

O ponto em comum: humano explícito no pipeline

Os três frameworks têm linguagens distintas e itens parcialmente sobrepostos, mas convergem num ponto editorial que pareceristas leem como prioridade. O pipeline precisa documentar onde e como o humano intervém. CLAIM exige descrição explícita do gold standard de anotação e da concordância interleitor. TRIPOD+AI pede transparência sobre como o modelo é integrado à decisão clínica. STARD-AI requer descrição completa do clinical reference standard e dos critérios usados para a verdade-do-terreno. Em conjunto, os três checklists desenharam uma expectativa que opera como filtro editorial: manuscritos que tratam o pipeline como caixa-preta, sem humano explícito em nenhuma etapa, não passam pela revisão metodológica em periódicos Q1.

Os três padrões que derrubam manuscritos em Q1

Pareceristas treinados nesses frameworks reconhecem padrões rápidos que sinalizam fragilidade metodológica. Três deles aparecem com frequência suficiente para serem catalogados como motivos canônicos de major revision ou rejeição.

Validação apenas em hold-out do dataset original

O padrão mais comum. O manuscrito reporta acurácia alta em conjunto de teste, mas o conjunto de teste vem do mesmo dataset usado para treino, com a mesma distribuição de demografia, mesmo equipamento, mesmo protocolo de aquisição. A análise sistemática de Myura Nagendran e colegas no BMJ em 2020 documentou o padrão em 81 estudos não randomizados comparando IA a clínicos: apenas nove eram prospectivos, apenas seis foram testados em ambiente clínico real, e o número mediano de especialistas no grupo comparador foi de quatro ⁸. Sessenta e um dos oitenta e um estudos afirmavam no abstract que o desempenho da IA era comparável ou superior ao dos clínicos. O risco de viés foi classificado como alto em cinquenta e oito dos oitenta e um. Pareceristas Q1 hoje sabem desse paper, e o citam quando confrontam manuscritos com a mesma estrutura.

Ausência de breakdown por subgrupo demográfico

O segundo padrão, e o que rapidamente derruba manuscritos em revistas que se posicionam sobre equidade. Yuzhe Yang e colegas mostraram em outubro de 2024 na Nature Medicine que modelos de imagem médica usam shortcuts demográficos, e que essa codificação implícita aparece em radiologia, dermatologia e oftalmologia com igual frequência. Mais importante para o argumento editorial: modelos com menor codificação de atributos demográficos performam melhor em ambientes de teste externos. Modelos que parecem ótimos no dataset de treino podem estar capitalizando exatamente os atributos que precisam ser corrigidos para desempenho justo ⁹. Manuscritos que reportam AUC agregado sem breakdown por grupo demográfico relevante para o domínio clínico recebem hoje pedido explícito de revisão.

Falta de protocolo de human-in-the-loop documentado

O terceiro padrão, e o que separa pipelines maduros de provas de conceito. O manuscrito apresenta um modelo de alta acurácia mas não diz onde o humano entra no fluxo clínico, em que casos o modelo se difere ao especialista, e qual é o protocolo de revisão das predições do modelo. A ausência dessa documentação é problemática em dois eixos. Editorialmente, viola itens explícitos em CLAIM e em STARD-AI sobre integração ao workflow clínico. Substantivamente, sinaliza que o pipeline não foi desenhado para deployment real, apenas para benchmark.

O que um pipeline calibrado para Q1 entrega

Em julho de 2023, Krishnamurthy Dvijotham e colegas publicaram em Nature Medicine um sistema chamado CoDoC, Complementarity-Driven Deferral to Clinical Workflow, que demonstra concretamente o que pareceristas Q1 esperam ver. CoDoC aprende a decidir quando confiar na predição do modelo e quando deferir ao especialista humano, baseando-se no padrão de complementaridade entre as duas fontes de decisão. Aplicado a triagem de câncer de mama, reduziu falsos positivos em 25% mantendo a mesma taxa de falsos negativos, com 66% de redução na carga de trabalho do clínico. Aplicado a triagem de tuberculose, reduziu falsos positivos em 5 a 15% para três de cinco sistemas comerciais avaliados ¹⁰. O paper é exemplar não pela métrica, mas pela transparência: pipeline documentado, integração ao workflow descrita item a item, validação em múltiplos sistemas comerciais, código-fonte aberto.

O modelo de referência adicional é o paper de Daniel Ting e colegas, publicado em dezembro de 2017 também no JAMA. O grupo treinou um sistema de aprendizado profundo em 494.661 imagens de fundo de olho de populações multiétnicas com diabetes e validou o desempenho em dez coortes adicionais cobrindo Cingapura, Estados Unidos, China, Hong Kong, México, Austrália. AUCs reportados nas dez coortes externas variaram de 0,889 a 0,983, com sensibilidade e especificidade explicitamente descritas por subgrupo demográfico ¹¹. A apresentação dos resultados é o que diferencia esse trabalho da maior parte da literatura: validação externa em múltiplos sites, breakdown demográfico em cada um, declaração clara de em quais condições o sistema é proposto para deployment.

A reescrita que sustenta o argumento editorial moderno em visão computacional médica não é incremental. Exige reorganizar a apresentação do pipeline em torno de validação externa multissite, breakdown demográfico explícito, protocolo documentado de human-in-the-loop, e aderência a pelo menos um dos três frameworks de reporte. Manuscritos que entregam esse conjunto passam para revisão por pares em periódicos Q1. Os que não entregam, não passam.

AUC 0,95 não publica em Q1: o que pareceristas leem em manuscritos de visão computacional médica

A literatura entre dois extremos

O que CheXNet, Gulshan e a onda de 2016 estabeleceram

A queda quando o modelo sai do dataset de treino

STARD-AI, TRIPOD+AI e CLAIM como gates editoriais

O que cada framework exige

O ponto em comum: humano explícito no pipeline

Os três padrões que derrubam manuscritos em Q1

Validação apenas em hold-out do dataset original

Ausência de breakdown por subgrupo demográfico

Falta de protocolo de human-in-the-loop documentado

O que um pipeline calibrado para Q1 entrega

Referências

Esta análise reflete a operação da Aria em Visão Computacional e Pipeline Completo de Data Science.

A literatura entre dois extremos

O que CheXNet, Gulshan e a onda de 2016 estabeleceram

A queda quando o modelo sai do dataset de treino

STARD-AI, TRIPOD+AI e CLAIM como gates editoriais

O que cada framework exige

O ponto em comum: humano explícito no pipeline

Os três padrões que derrubam manuscritos em Q1

Validação apenas em hold-out do dataset original

Ausência de breakdown por subgrupo demográfico

Falta de protocolo de human-in-the-loop documentado

O que um pipeline calibrado para Q1 entrega

Referências

Esta análise reflete a operação da Aria em Visão Computacional e Pipeline Completo de Data Science.

LDA vs. BERTopic em corpus acadêmico

Embeddings semânticos para triagem em revisão sistemática