IA E MACHINE LEARNING

Desbalanceamento de classes

Situacao em que as categorias de um problema de classificacao nao estao igualmente representadas, com uma classe majoritaria dominando a minoritaria, em geral a de interesse. Tratado por reamostragem (SMOTE), custo e escolha de metrica adequada.

Definição estendida

Desbalanceamento de classes é a situação em que as categorias de um problema de classificação não estão aproximadamente igualmente representadas, com uma classe majoritária dominando e uma ou mais classes minoritárias raras. O problema é central porque, em geral, a classe rara é justamente a de interesse: fraude, doença, falha, evasão. He e Garcia (2009), na revisão de referência, mostram que classificadores treinados sem correção tendem a favorecer a majoritária, otimizando a acurácia global ao ignorar a minoria. A resposta mais difundida no nível dos dados é a reamostragem. O SMOTE, proposto por Chawla e colaboradores (2002), gera exemplos sintéticos da classe minoritária por interpolação entre vizinhos próximos, em vez de simplesmente replicar registros, o que amplia a região de decisão sem a mera duplicação. Fernández e colaboradores (2018), no balanço de quinze anos, registram que o SMOTE se tornou o padrão de fato e catalogam dezenas de variantes, além de alternativas no nível do algoritmo, como o aprendizado sensível a custo.

Quando se aplica

O tratamento de desbalanceamento se aplica quando a classe de interesse é rara e o custo de errá-la é alto. Aplica-se a detecção de fraude, diagnóstico de doenças pouco prevalentes, predição de falhas e qualquer cenário em que um falso negativo seja mais grave que um falso positivo. O SMOTE e suas variantes se aplicam no nível dos dados, antes do treino, para reequilibrar a amostra. O aprendizado sensível a custo se aplica no nível do algoritmo, penalizando mais o erro na minoria. Aplica-se também a escolha de métricas: como a acurácia engana sob desbalanceamento, a avaliação correta usa precisão, revocação, F1 e a área sob a curva de precisão-revocação. Fernández e colaboradores (2018) recomendam combinar reamostragem com avaliação adequada, não uma sem a outra.

Quando NÃO se aplica

A correção de desbalanceamento não se aplica de forma automática a todo conjunto desigual. Quando há dados abundantes e a minoria, embora proporcionalmente menor, é numerosa em valor absoluto, o reequilíbrio pode ser desnecessário. O SMOTE não se aplica bem em dados de altíssima dimensão ou com muitas variáveis categóricas, onde a interpolação entre vizinhos perde sentido geométrico. Não se aplica antes da divisão treino-teste: gerar exemplos sintéticos e só depois separar contamina o teste com informação do treino e infla o desempenho de forma ilusória. Não se aplica como conserto de rótulos ruidosos: reamostrar ruído amplifica o ruído. E não se aplica sem revisar a métrica; reequilibrar os dados e continuar avaliando por acurácia esconde o próprio problema que se pretendia resolver.

Aplicações por área

  • Detecção de fraude e segurança: classes positivas raras, em que a revocação da minoria é o objetivo central.
  • Saúde e diagnóstico: doenças de baixa prevalência, com alto custo de falso negativo, tratadas por reamostragem ou custo.
  • Manutenção preditiva: falhas raras em séries de operação, em que o evento de interesse é minoritário.
  • Risco de crédito e evasão: eventos pouco frequentes em grandes bases tabulares, avaliados por curva de precisão-revocação.

Armadilhas comuns

A primeira armadilha é avaliar por acurácia sob desbalanceamento: um modelo que prevê sempre a majoritária parece excelente e é inútil para a minoria. A segunda é aplicar SMOTE antes de separar treino e teste, vazando informação e inflando o resultado. A terceira é usar interpolação em espaços onde ela não faz sentido, como muitas variáveis categóricas, gerando exemplos sintéticos irreais. A quarta é reamostrar dados ruidosos, multiplicando o erro de rótulo em vez de corrigi-lo. A quinta é tratar o reequilíbrio como solução única, quando ajustar o limiar de decisão e usar aprendizado sensível a custo costumam ser tão ou mais eficazes que mexer na amostra.

Última atualização —