Gradient boosting — Glossário Aria Research

Definição estendida

Gradient boosting é uma técnica de conjunto (ensemble) que constrói um modelo forte somando muitos modelos fracos, em geral árvores de decisão rasas, treinados em sequência. A ideia, formalizada por Friedman (2001), é tratar o aprendizado como uma descida de gradiente no espaço de funções: cada nova árvore é ajustada para corrigir os erros do conjunto acumulado até ali, aproximando o gradiente negativo da função de perda. O modelo final é uma soma ponderada dessas árvores, e uma taxa de aprendizado pequena controla quanto cada uma contribui. Diferente do random forest, que treina árvores em paralelo e as combina por média, o boosting é estritamente sequencial: cada árvore depende das anteriores. Natekin e Knoll (2013) descrevem a flexibilidade do método, que se adapta a diferentes funções de perda e, portanto, a regressão, classificação e ranqueamento. As implementações escaláveis, sobretudo o XGBoost de Chen e Guestrin (2016) e o LightGBM, tornaram o gradient boosting o padrão de fato em dados tabulares.

Quando se aplica

O gradient boosting se aplica como primeira escolha em dados tabulares estruturados, onde costuma superar redes neurais e modelos lineares. Aplica-se bem a misturas de variáveis numéricas e categóricas, captura interações e não linearidades sem engenharia manual extensa e lida com relações complexas entre preditores e alvo. É forte em competições e em problemas aplicados de predição de risco, classificação de clientes, detecção de fraude e previsão de demanda. Aplica-se quando se quer desempenho preditivo elevado e há tempo para ajustar hiperparâmetros. As implementações modernas oferecem tratamento nativo de valores ausentes, regularização e paralelização eficiente, o que viabiliza o uso em conjuntos grandes. Quando combinado com SHAP, oferece também interpretabilidade ao nível da contribuição de cada variável.

Quando NÃO se aplica

O gradient boosting não se aplica sem cuidado com overfitting: por ser sequencial e ávido, ajusta-se ao ruído se o número de árvores, a profundidade e a taxa de aprendizado não forem regularizados e validados. Não se aplica bem a dados de altíssima dimensão e esparsos, como texto bruto ou imagem, onde modelos especializados dominam. Não é a melhor opção quando a interpretabilidade simples e direta é mandatória: o conjunto de centenas de árvores não é legível como uma regressão. Não se aplica quando o orçamento de ajuste é mínimo; o método é sensível a hiperparâmetros, e um modelo mal ajustado perde para alternativas mais robustas como o random forest. E não se aplica a extrapolação além do intervalo de treino: árvores não projetam tendências para fora do domínio observado.

Aplicações por área

Risco e finanças: modelos de inadimplência, escoragem de crédito e detecção de fraude sobre dados tabulares.
Saúde e epidemiologia: predição de desfecho clínico a partir de variáveis estruturadas, com interpretação por contribuição de variável.
Marketing e operações: previsão de churn, demanda e propensão, onde o desempenho preditivo é o critério central.
Ciências sociais aplicadas: modelagem preditiva em dados de survey e administrativos, como complemento à inferência clássica.

Armadilhas comuns

A primeira armadilha é deixar o modelo crescer sem regularização: muitas árvores profundas com taxa de aprendizado alta levam ao sobreajuste silencioso. A segunda é não separar validação de teste de forma honesta; o ajuste intensivo de hiperparâmetros vaza informação se a avaliação não for cuidadosa. A terceira é confundir importância de variável bruta com causalidade: a importância de um preditor no boosting é associação, não efeito causal. A quarta é aplicar o método a texto ou imagem crus, onde ele perde para arquiteturas próprias. A quinta é esquecer que árvores não extrapolam: usar um modelo de boosting para prever fora do intervalo de treino produz estimativas planas e enganosas.