Regressão logística — Glossário Aria Research

Definição estendida

Regressão logística é um modelo estatístico para variável dependente categórica que estima a probabilidade de pertencer a uma categoria como função logística de preditores. Para resposta binária ( $Y \in \{0, 1\}$ ), a forma canônica é:

\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k

onde $p = P(Y=1 \mid X)$ e $\log\left(\frac{p}{1-p}\right)$ é o logit (log-odds). Os coeficientes $\beta_i$ são interpretados como mudança no log-odds por unidade de aumento em $x_i$ , ou — após exponenciação — como razão de chances ( $e^{\beta_i}$ = razão de chances). Cox (1958, JRSS B) formalizou a regressão logística no framework moderno; Hosmer, Lemeshow e Sturdivant (2013, Applied Logistic Regression) consolidaram a referência técnica padrão. Variantes incluem multinomial (mais de 2 categorias sem ordem natural — softmax), ordinal (categorias ordenadas — proportional odds) e condicional (estudos caso-controle pareados).

Quando se aplica

Regressão logística aplica-se em qualquer problema com desfecho categórico que precisa ser modelado em função de preditores contínuos ou categóricos: presença/ausência de doença em epidemiologia, sucesso/fracasso de intervenção, voto/abstenção, default/não-default em crédito, classificação binária em ML clássico. É a técnica padrão para análise de associação em estudos caso-controle (epidemiologia analítica) e pareando bem com IC de razão de chances. Em ML, regressão logística serve como baseline forte antes de modelos mais complexos (random forest, gradient boosting, redes neurais) — frequentemente difícil de superar em problemas tabulares com features bem-engenheiradas.

Quando NÃO se aplica

Não se aplica em variável dependente contínua — usar regressão linear. Não se aplica em variável ordinal com mais de 4-5 categorias se distância entre categorias é informativa — modelos ordinais ou linear pode ser mais apropriado. Não se aplica em desfechos com extrema imbalance ( $<5\%$ de uma classe) sem ajustes (firth correction, downsampling, weighting). Não se aplica em dados com forte estrutura de dependência (medidas repetidas, agrupamento) sem extensões: modelos mistos (GLMM), GEE, ou modelos hierárquicos são apropriados. Em ML moderno com features de alta dimensão e relações não-lineares, regressão logística simples é frequentemente sub-ótima.

Aplicações por área

— Epidemiologia: padrão para razão de chances em estudos caso-controle; ajuste para confundidores via inclusão de covariáveis. — Finanças: scoring de crédito, default prediction, fraude — regressão logística é baseline regulatório em muitos contextos. — Marketing: modelagem de churn, conversão, resposta a campanha — interpretabilidade do coeficiente é diferencial. — ML aplicado: baseline em problemas de classificação tabular antes de modelos não-lineares.

Armadilhas comuns

A primeira armadilha é interpretar $\beta_i$ como efeito direto sobre $p$ — é efeito sobre logit; mudança em $p$ depende do valor de partida (curva sigmoide é não-linear). A segunda é confundir razão de chances ( $e^{\beta}$ ) com risco relativo — coincidem quando o desfecho é raro ( $<10\%$ ) mas divergem em desfechos comuns; reportar como risco relativo quando é razão de chances é erro frequente em epidemiologia. A terceira é não checar suposições: linearidade do logit em preditores contínuos, ausência de multicolinearidade severa (VIF), independência das observações. A quarta é incluir variáveis com base apenas em $p < 0,05$ univariado: inclusão deve seguir framework teórico, não fishing. A quinta é interpretar pseudo- $R^2$ (Nagelkerke, McFadden) como o $R^2$ da regressão linear — não são equivalentes; valores típicos de Nagelkerke estão entre 0,1 e 0,4 mesmo em modelos bons.