Em modelagem preditiva nas ciências sociais, o AUC é a métrica que todo mundo relata e, ao mesmo tempo, a que menos diz se o modelo presta. A área sob a curva ROC mede uma coisa só: a capacidade de ordenar, de dar a um caso positivo uma pontuação maior que a de um caso negativo. É uma propriedade útil, mas parcial. Ela nada diz sobre se as probabilidades previstas estão corretas, sobre se usar o modelo para decidir faz mais bem do que mal, e sobre o limite duro do quanto um desfecho social é previsível. Apresentar um AUC alto como prova de que o modelo é bom é confundir uma fatia da avaliação com a avaliação inteira, e o parecerista atento percebe a lacuna na primeira leitura.
O primeiro ponto cego é o teto de previsibilidade. Salganik e colegas (2020)2 organizaram uma colaboração em massa, o Fragile Families Challenge, em que 160 equipes construíram modelos para seis desfechos de vida a partir de um conjunto rico de dados de coorte. Mesmo com aprendizado de máquina otimizado para previsão, as melhores predições ficaram apenas um pouco acima de um modelo de referência simples, com acurácia da ordem de 0,2 para dois desfechos e de 0,05 para os outros quatro. A lição é desconfortável: muitos desfechos sociais são fracamente previsíveis, e uma métrica que parece boa pode estar mascarando um modelo que mal supera o palpite informado.
O segundo problema é que uma discriminação alta na derivação não sobrevive à validação externa. Gulati e colegas (2022)1 realizaram 158 validações externas independentes de 104 modelos preditivos e mediram a discriminação de cada um na derivação e, depois, em populações novas.
A leitura da figura desfaz a ideia de que o c-statistic da derivação é uma etiqueta fixa do modelo. A mediana cai de 0,76 para 0,64 quando os modelos são testados em populações novas, e cerca de metade dessa queda vem do estreitamento do espectro de casos na amostra de validação. É a discriminação medida no melhor cenário, a derivação, que não se sustenta fora dele. Reportar apenas o número da derivação superestima o quanto o modelo generaliza. E o que vale da derivação para a validação externa vale também para subgrupos e para a prevalência do desfecho: um c-statistic agregado esconde que o modelo discrimina bem num grupo e mal em outro.
Há ainda o que o AUC, por construção, não consegue ver. Van Calster e colegas (2019)3 chamam a calibração de calcanhar de Aquiles da análise preditiva: um modelo pode ordenar os casos muito bem, com AUC alto, e ainda assim emitir probabilidades sistematicamente erradas, dizendo trinta por cento quando o risco real é dez. A discriminação não enxerga esse erro; só a calibração o mede. E há a dimensão da decisão: Vickers e Elkin (2006)5 introduzem o benefício líquido e a análise de curva de decisão, que perguntam se usar o modelo para agir, num dado limiar, produz mais acerto do que dano. Um modelo com bom AUC pode ser inútil, ou prejudicial, na decisão real, e nenhuma estatística de ordenação avisa isso.
Esses pontos cegos não são acadêmicos quando o modelo decide sobre pessoas. Um instrumento de risco usado para informar liberdade condicional, alocação de benefícios ou triagem escolar carrega consequências reais a cada erro de probabilidade, e é justamente aí que o AUC engana mais. Um modelo que ordena bem mas está mal calibrado atribui a um indivíduo um risco de quarenta por cento que, na verdade, é de quinze, e a decisão tomada sobre esse número é injusta mesmo que a ordenação esteja correta. Um modelo cujo AUC cai num subgrupo discrimina pior justamente para quem o sistema costuma errar, e o número agregado esconde essa falha. E um modelo cujo benefício líquido é negativo no limiar de uso causa mais dano do que a ausência de modelo, por mais alto que seja seu AUC. Em desfechos sociais consequentes, relatar só a discriminação não é um detalhe técnico omitido; é a parte da avaliação que protegeria as pessoas afetadas.
A consequência não é abandonar o AUC, e sim parar de tratá-lo como o veredito. Steyerberg e colegas (2010)4 oferecem o enquadramento que organiza isso: discriminação, calibração e utilidade clínica são propriedades distintas, cada uma com sua medida própria, e um modelo sério se relata com as três. A regra operacional segue daí. Relatar discriminação, calibração e valor de decisão juntos, nunca o AUC isolado. Verificar a estabilidade da discriminação entre subgrupos e da derivação para a validação externa, em vez de um número único tirado da condição mais favorável. Comparar o modelo com uma linha de base simples, para mostrar que ele de fato acrescenta, e situar o resultado contra o teto de previsibilidade do desfecho. E, quando o desfecho é socialmente consequente, declarar com franqueza o limite do que o modelo prevê. Um AUC alto pode ser o começo de uma boa avaliação; tomado como o fim, é a forma mais elegante de não dizer se o modelo presta.