Random forest — Glossário Aria Research

Definição estendida

Random forest é um método de conjunto que combina muitas árvores de decisão construídas de forma independente e agrega suas previsões por voto majoritário, na classificação, ou por média, na regressão. Duas fontes de aleatoriedade tornam as árvores diferentes entre si. A primeira é o bagging: cada árvore é treinada sobre uma amostra bootstrap dos dados, sorteada com reposição. A segunda é a seleção aleatória de variáveis: em cada divisão de nó, apenas um subconjunto sorteado dos preditores é considerado. Breiman (2001), que formalizou o método, mostrou que essa dupla aleatoriedade descorrelaciona as árvores, e é a média de modelos pouco correlacionados que reduz a variância sem aumentar o viés. Biau e Scornet (2016), na revisão de referência, sistematizam a teoria por trás do algoritmo, a escolha de parâmetros, o mecanismo de reamostragem e as medidas de importância de variável. Diferente do gradient boosting, sequencial, as árvores do random forest são independentes e podem ser treinadas em paralelo.

Quando se aplica

O random forest se aplica como linha de base robusta em dados tabulares, com bom desempenho e pouca necessidade de ajuste. Aplica-se quando se quer um modelo que funcione bem com configuração quase padrão: ele é resistente a sobreajuste graças à média sobre muitas árvores e tolera variáveis irrelevantes, ruído e relações não lineares. Couronné e colaboradores (2018), em um benchmark com 243 conjuntos reais, encontraram o random forest superando a regressão logística em cerca de 69% dos casos com parâmetros padrão. Aplica-se bem onde a estimativa de erro out-of-bag dispensa um conjunto de validação separado, e onde a importância de variável orienta a triagem de preditores. É forte em classificação e regressão de risco, ecologia, genômica e qualquer problema tabular em que estabilidade importe mais que o último ponto de desempenho.

Quando NÃO se aplica

O random forest não se aplica quando se busca o máximo desempenho preditivo em dados tabulares: nesse limite, o gradient boosting costuma vencer, ao custo de mais ajuste. Não se aplica a dados de altíssima dimensão e esparsos, como texto ou imagem crus, onde modelos especializados dominam. Não se aplica quando a interpretabilidade de um modelo único é exigida: uma floresta de centenas de árvores não é legível como uma só árvore ou uma regressão. Não se aplica à extrapolação além do intervalo de treino, limitação herdada das árvores, que não projetam tendências. E a medida de importância de variável, embora útil, não se aplica como evidência causal nem é neutra: preditores com muitas categorias ou alta cardinalidade podem ser favorecidos artificialmente, o que exige interpretação cuidadosa.

Aplicações por área

Genômica e bioinformática: classificação e seleção de preditores em dados de alta dimensão moderada, com importância de variável.
Ecologia e ambiente: modelagem de distribuição de espécies e de processos a partir de variáveis heterogêneas.
Risco e finanças: escoragem e classificação como linha de base estável antes de modelos mais ajustados.
Saúde: predição de desfecho a partir de variáveis estruturadas, com erro out-of-bag para avaliação interna.

Armadilhas comuns

A primeira armadilha é ler a importância de variável como causalidade ou como medida neutra, ignorando o viés a favor de preditores de alta cardinalidade. A segunda é esperar do random forest o desempenho de ponta do boosting e concluir que o método é fraco, quando ele troca um pouco de acurácia por robustez. A terceira é aplicá-lo a texto ou imagem crus sem representação adequada. A quarta é usá-lo para extrapolar além do domínio de treino, obtendo estimativas planas. A quinta é desperdiçar a estimativa out-of-bag: ela oferece uma avaliação interna quase gratuita, e ignorá-la para montar uma validação redundante é trabalho perdido.