Definição estendida
Regressão logística é um modelo estatístico para variável dependente categórica que estima a probabilidade de pertencer a uma categoria como função logística de preditores. Para resposta binária (), a forma canônica é:
onde e é o logit (log-odds). Os coeficientes são interpretados como mudança no log-odds por unidade de aumento em , ou — após exponenciação — como razão de chances ( = razão de chances). Cox (1958, JRSS B) formalizou a regressão logística no framework moderno; Hosmer, Lemeshow e Sturdivant (2013, Applied Logistic Regression) consolidaram a referência técnica padrão. Variantes incluem multinomial (mais de 2 categorias sem ordem natural — softmax), ordinal (categorias ordenadas — proportional odds) e condicional (estudos caso-controle pareados).
Quando se aplica
Regressão logística aplica-se em qualquer problema com desfecho categórico que precisa ser modelado em função de preditores contínuos ou categóricos: presença/ausência de doença em epidemiologia, sucesso/fracasso de intervenção, voto/abstenção, default/não-default em crédito, classificação binária em ML clássico. É a técnica padrão para análise de associação em estudos caso-controle (epidemiologia analítica) e pareando bem com IC de razão de chances. Em ML, regressão logística serve como baseline forte antes de modelos mais complexos (random forest, gradient boosting, redes neurais) — frequentemente difícil de superar em problemas tabulares com features bem-engenheiradas.
Quando NÃO se aplica
Não se aplica em variável dependente contínua — usar regressão linear. Não se aplica em variável ordinal com mais de 4-5 categorias se distância entre categorias é informativa — modelos ordinais ou linear pode ser mais apropriado. Não se aplica em desfechos com extrema imbalance ( de uma classe) sem ajustes (firth correction, downsampling, weighting). Não se aplica em dados com forte estrutura de dependência (medidas repetidas, agrupamento) sem extensões: modelos mistos (GLMM), GEE, ou modelos hierárquicos são apropriados. Em ML moderno com features de alta dimensão e relações não-lineares, regressão logística simples é frequentemente sub-ótima.
Aplicações por área
— Epidemiologia: padrão para razão de chances em estudos caso-controle; ajuste para confundidores via inclusão de covariáveis. — Finanças: scoring de crédito, default prediction, fraude — regressão logística é baseline regulatório em muitos contextos. — Marketing: modelagem de churn, conversão, resposta a campanha — interpretabilidade do coeficiente é diferencial. — ML aplicado: baseline em problemas de classificação tabular antes de modelos não-lineares.
Armadilhas comuns
A primeira armadilha é interpretar como efeito direto sobre — é efeito sobre logit; mudança em depende do valor de partida (curva sigmoide é não-linear). A segunda é confundir razão de chances () com risco relativo — coincidem quando o desfecho é raro () mas divergem em desfechos comuns; reportar como risco relativo quando é razão de chances é erro frequente em epidemiologia. A terceira é não checar suposições: linearidade do logit em preditores contínuos, ausência de multicolinearidade severa (VIF), independência das observações. A quarta é incluir variáveis com base apenas em univariado: inclusão deve seguir framework teórico, não fishing. A quinta é interpretar pseudo- (Nagelkerke, McFadden) como o da regressão linear — não são equivalentes; valores típicos de Nagelkerke estão entre 0,1 e 0,4 mesmo em modelos bons.