Modelos mistos (GLMM) — Glossário Aria Research

Definição estendida

Modelos mistos generalizados (Generalized Linear Mixed Models, GLMM; também mixed-effects models, multilevel models, hierarchical linear models) combinam dois tipos de parâmetros: efeitos fixos, que estimam relações populacionais constantes (análogos aos coeficientes de regressão clássica), e efeitos aleatórios, que modelam variação sistemática entre grupos, sujeitos ou clusters como amostras de uma distribuição (tipicamente normal). A especificação básica para dados longitudinais com $n$ sujeitos e $j$ medidas por sujeito:

y_{ij} = \beta_0 + \beta_1 X_{ij} + u_{0i} + \varepsilon_{ij}, \quad u_{0i} \sim N(0, \sigma_u^2), \quad \varepsilon_{ij} \sim N(0, \sigma^2)

onde $u_{0i}$ é o intercepto aleatório por sujeito $i$ . Especificações mais complexas incluem inclinações aleatórias, estruturas aninhadas (alunos em escolas em distritos), e cross-classified (alunos em escolas + bairros não-aninhados). Bates et al. (2015, Journal of Statistical Software) descreveram o pacote lme4 em R, hoje implementação dominante. Pinheiro e Bates (2000, Mixed-Effects Models in S and S-PLUS, Springer) consolidaram a referência teórica clássica. Estimação típica via REML (Restricted Maximum Likelihood) ou ML; testes de significância para efeitos fixos via Wald, likelihood ratio, ou métodos de Satterthwaite/Kenward-Roger para graus de liberdade aproximados.

Quando se aplica

GLMM aplica-se em qualquer estrutura de dados onde observações não são independentes: medidas repetidas no mesmo sujeito (longitudinal, painel), dados aninhados (alunos em escolas, pacientes em hospitais), dados agrupados (medidas em famílias, em ninhadas, em clusters geográficos). Aplica-se em ensaios clínicos com medidas pré/pós e seguimento; em pesquisa educacional com efeito de escola/professor; em ecologia com efeito de sítio/ano; em psicometria com itens cruzados em sujeitos. Para desfechos não-normais (binário, contagem, proporção), GLMM com função link apropriada (logit, log, probit) é a generalização. Aplica-se quando o interesse é tanto estimativa populacional média quanto magnitude da variabilidade entre clusters — informação descartada por modelos com efeitos só fixos.

Quando NÃO se aplica

Não se aplica em dados independentes simples — regressão clássica (linear, logística, Poisson) é mais simples e suficiente. Não se aplica diretamente quando número de clusters é muito pequeno ( $K < 5$ ): variância entre clusters é mal-estimada; efeitos fixos para cluster (dummies) é alternativa. Não se aplica em séries temporais com autocorrelação dominante e $K = 1$ — GLMM trata correlação intra-cluster mas estrutura ARIMA pode ser mais apropriada. Não substitui inferência causal: GLMM controla heterogeneidade entre clusters mas não confounding não-medido dentro de cluster. Em dados extremamente desbalanceados (alguns clusters com 1 observação, outros com 100), convergência pode falhar e estimativas ficam instáveis.

Aplicações por área

— Saúde e ensaios clínicos: modelos de medidas repetidas em estudos longitudinais; efeito de centro em ensaios multicêntricos. — Educação: análise multinível com alunos aninhados em escolas; value-added models para efeito docente. — Ecologia: efeitos aleatórios de sítio, ano, indivíduo; modelos espaciais com correlação espacial residual. — Psicometria: análise de itens com sujeitos como random effect; SEM multinível em pesquisa organizacional.

Armadilhas comuns

A primeira armadilha é tratar dados aninhados com regressão clássica ignorando estrutura: subestima erro-padrão, infla taxa de falsos positivos, viola pressuposto de independência. A segunda é especificar apenas intercepto aleatório quando inclinações também variam entre clusters: modelo subespecificado pode produzir estimativas viesadas. A terceira é não testar singularidade da estrutura aleatória: lme4 emite warning de “singular fit” quando variância estimada é praticamente zero — pode indicar modelo over-parametrizado. A quarta é interpretar coeficientes de efeitos fixos sem considerar variação entre clusters: efeito populacional médio de $\beta = 0{,}3$ pode mascarar grande variação ( $\sigma_{\beta} = 0{,}5$ entre clusters). A quinta é usar p-valores ingênuos do lm/glm em GLMM: graus de liberdade são problemáticos; usar lmerTest (Satterthwaite) ou bootstrap; reportar IC baseado em likelihood profile ou bootstrap.