SEM em mediação múltipla: quando a regressão linear deixa de responder

A mediação múltipla pergunta por que um efeito acontece, não apenas se ele existe. Quando há mais de um mecanismo entre causa e desfecho, a quantidade de interesse é o efeito indireto, o produto dos caminhos que ligam a variável independente ao mediador e o mediador ao resultado. Esse produto é exatamente o que a regressão linear comum não entrega bem: ela estima cada caminho em separado, mas a inferência sobre o produto, e sobre vários produtos que competem dentro do mesmo modelo, exige outro instrumento. É nesse ponto que a regressão para e a modelagem por equações estruturais começa a responder.

O primeiro limite aparece assim que os mediadores são vários. Rodar uma regressão isolada para cada mediador trata cada mecanismo como se os outros não existissem, ignora a correlação entre eles e impede a única pergunta que torna o modelo múltiplo interessante: qual mecanismo carrega mais efeito. Preacher e Hayes (2008)² formalizam o modelo de mediadores paralelos e os contrastes entre efeitos indiretos dentro de um mesmo ajuste, com inferência por reamostragem. Um modelo, todos os mediadores, os efeitos indiretos estimados em conjunto e comparáveis entre si: é isso que uma cascata de regressões não consegue oferecer.

A modelagem por equações estruturais acrescenta três coisas que a regressão por mínimos quadrados não tem como dar ao mesmo tempo. Estima todos os caminhos do modelo de uma vez, em vez de regressões isoladas que não conversam entre si. Acomoda variáveis latentes, separando o construto de interesse do erro de medida que, deixado dentro das variáveis observadas, enviesa os coeficientes e, com eles, os efeitos indiretos. E entrega índices de ajuste que permitem julgar o modelo inteiro, não apenas cada relação local. Essa diferença não é cosmética: Leth-Steensen e Gallitto (2016)⁷, simulando modelos de mediação com variáveis latentes completas, encontram que o teste de significância conjunta teve mais potência e taxas de erro tipo I mais razoáveis do que o bootstrap com correção de viés. Quando o construto é medido com erro, a SEM, e não a regressão sobre escores observados, é o modelo correto.

Resolvido o modelo, resta a inferência sobre o efeito indireto, e é aqui que a escolha do método deixa marcas mensuráveis. A distribuição amostral do produto de caminhos não é normal, então o intervalo de confiança precisa de reamostragem. Hayes e Scharkow (2013)³ mostram que os testes concordam na maioria dos casos, mas divergem justamente quando existe um efeito indireto a detectar, que é quando a decisão importa. A pergunta deixa de ser se usar bootstrap e passa a ser qual bootstrap, e Tibbe e Montoya (2022)¹ medem o preço de cada resposta.

Numa comparação Monte Carlo de cinco intervalos de bootstrap para o efeito indireto, com o caminho a igual a zero, o caminho b em 0,39 e n igual a 100, a taxa de erro tipo I do bootstrap percentil ficou em 0,062, dentro do teto de robustez liberal de 0,075 proposto por Bradley. Os dois métodos com correção de viés, o clássico e a sua versão testada por significância, chegaram a 0,088, acima desse teto. Os métodos de correção intermediária ficaram entre os dois. A figura mostra a ordem completa.

Gráfico de barras com a taxa de erro tipo I de cinco métodos de bootstrap para o efeito indireto, do bootstrap percentil em 0,062 ao bootstrap com correção de viés em 0,088, com o teto de robustez em 0,075. — Taxa de erro tipo I por método de bootstrap para o efeito indireto, na condição a igual a 0, b igual a 0,39 e n igual a 100 da comparação Monte Carlo de Tibbe e Montoya (2022). O bootstrap percentil fica em 0,062; os métodos com correção de viés chegam a 0,088, acima do teto de 0,075.

A leitura operacional dessa figura é que não existe potência grátis. O ganho de detecção da correção de viés é pago em falsos positivos, e Tibbe e Montoya (2022)¹ mostram que, depois de igualar as taxas de erro tipo I entre os métodos, boa parte dessa potência extra desaparece. Para a maioria das aplicações, em que conter o falso positivo importa mais do que arrancar o último ponto de potência, o bootstrap percentil permanece a escolha padrão. Quando os dados brutos não estão disponíveis e só restam as estimativas e a matriz de covariância, o intervalo de Monte Carlo descrito por Preacher e Selig (2012)⁶ reproduz o desempenho da reamostragem sem precisar reamostrar, e cobre o caso em que o bootstrap é impraticável.

Com o modelo certo e o intervalo certo, a análise múltipla abre perguntas que a regressão sequer formula. Comparar dois efeitos indiretos dentro do mesmo modelo exige distinguir diferença de valor de diferença de magnitude, e Coutts e Hayes (2022)⁴ oferecem os métodos que respondem a essa comparação de forma consistente, implementados em SEM. Quando os mediadores formam uma cadeia, e não apenas caminhos paralelos, a exigência sobre o método aperta: Tofighi e Kelcey (2019)⁵, num modelo sequencial de dois mediadores, encontram erro tipo I inflado e subcobertura no popular bootstrap com correção de viés, e mostram que o melhor método para testar a hipótese não é o melhor método para construir o intervalo. A cadeia de mediadores é território natural da SEM, não de uma sequência de regressões encadeadas à mão.

A regra operacional cabe em três decisões. O sistema inteiro, com mediadores paralelos ou em série e construtos latentes, é estimado de uma vez em SEM, nunca como uma pilha de regressões independentes. O efeito indireto é testado por um intervalo de reamostragem, com o bootstrap percentil como padrão quando conter o erro tipo I importa, e o intervalo de Monte Carlo quando só há estimativas resumidas. A correção de viés fica reservada aos casos em que a potência é a prioridade declarada e a inflação do falso positivo foi medida e aceita, não adotada por hábito. Mediação múltipla feita assim responde à pergunta que a regressão linear apenas finge responder.

SEM em mediação múltipla: quando a regressão linear deixa de responder

Referências

Esta análise reflete a operação da Aria em Modelagem de Equações Estruturais e Análise Estatística.

Referências

Esta análise reflete a operação da Aria em Modelagem de Equações Estruturais e Análise Estatística.

Missing data não é detalhe técnico: o que pareceristas leem com lupa

Visualização publicável vs exploratória: dois objetos, duas regras

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável