Definição estendida
AUC-ROC (Area Under the Receiver Operating Characteristic Curve) é a métrica de discriminação de classificadores binários que integra performance em todos os limiares possíveis de decisão. A curva ROC plota a taxa de verdadeiros positivos (sensibilidade, recall) contra a taxa de falsos positivos ao variar o limiar de decisão de a . AUC é a integral dessa curva:
Hanley e McNeil (1982, Radiology) formalizaram a interpretação probabilística canônica: AUC equivale à probabilidade de que o classificador atribua escore mais alto a um positivo aleatório do que a um negativo aleatório. Bradley (1997) consolidou o uso em ML aplicado e demonstrou propriedades estatísticas. Valores: 0,5 corresponde a classificador aleatório; 1,0 a discriminação perfeita; 0,7–0,8 é considerado aceitável; 0,8–0,9 é bom; >0,9 é excelente em domínios típicos. Vantagens sobre accuracy: independente do limiar específico de decisão, robusto a desbalanceamento moderado, comparável entre modelos sem precisar fixar trade-off precision/recall.
Quando se aplica
AUC-ROC aplica-se em qualquer problema de classificação binária onde o limiar final de decisão será calibrado posteriormente (com base em custo de falsos positivos vs. negativos no domínio). É padrão em estudos de diagnóstico médico — receiver operating characteristic foi cunhado em radar militar e migrou para radiologia. É métrica primária em comparação de modelos em ML aplicado quando classes são moderadamente balanceadas. Aplica-se em sistemas de recomendação, ranking de risco em crédito, detecção de anomalias quando se interpreta como problema binário. Em problemas multi-classe, generalizações como AUC-ROC one-vs-rest (OvR) ou one-vs-one (OvO) são extensões padrão.
Quando NÃO se aplica
Não se aplica diretamente em problemas multi-classe sem extensões — usar OvR/OvO ou alternativa específica (top-k accuracy). Não se aplica bem em datasets fortemente desbalanceados (positivos < 1%): AUC pode ser alto enquanto modelo erra sistematicamente na classe minoritária — PR-AUC (área sob curva Precision-Recall) é alternativa preferível. Não se aplica como métrica única quando custo de erros é assimétrico e o limiar específico precisa ser calibrado: nesse caso, usar a curva inteira (não só a área) ou métricas de operating point (sensibilidade a especificidade fixa). Não se aplica em regressão. Não substitui calibração de probabilidades: dois modelos com mesmo AUC podem ter qualidades de calibração distintas (Brier score, calibration curve avaliam isso).
Aplicações por área
— Saúde: padrão em estudos diagnósticos; AUC reportado com IC bootstrap; Hanley & McNeil (1982) é canônico em radiologia. — Finanças: scoring de crédito; KS statistic e Gini coefficient são derivados/relacionados a AUC. — ML competitivo: Kaggle frequentemente usa AUC como métrica principal de classificação binária. — Detecção de fraude: AUC usado para comparar modelos antes da calibração de threshold operacional.
Armadilhas comuns
A primeira armadilha é confiar em AUC alto em datasets com classes severamente desbalanceadas — pode esconder que modelo erra na classe minoritária; PR-AUC informa melhor. A segunda é confundir AUC com accuracy: modelo pode ter AUC = 0,95 e accuracy = 0,5 em threshold padrão se calibração for ruim. A terceira é otimizar AUC e ignorar calibração probabilística — relevante em domínios onde probabilidade prevista entra em decisões custo-sensíveis (ex.: cálculo de risco esperado). A quarta é comparar AUC entre estudos com prevalências de classe diferentes sem ajuste — diferenças podem refletir prevalência, não diferença real de modelo. A quinta é reportar AUC pontual sem IC: AUC é estimativa amostral; bootstrap fornece IC apropriado, especialmente em estudos com moderado.