Dados e estatística

Invariância de mensuração em instrumentos traduzidos

Comparações entre grupos exigem evidência empírica de invariância em quatro níveis. Sem isso, a estatística descritiva esconde ruído sistemático que o parecerista metodológico identifica em segundos.

Há um padrão recorrente em manuscritos de psicologia, educação e ciências da saúde que cruzam fronteiras linguísticas. O instrumento original foi validado em inglês, foi traduzido para português brasileiro seguindo o protocolo de back-translation, e o autor reporta alfa de Cronbach satisfatório na amostra brasileira. Em seguida, compara médias entre grupos — Brasil versus Estados Unidos, homens versus mulheres, antes versus depois de uma intervenção — e discute as diferenças encontradas.

A revisão por pares em periódicos Q1 da área raramente deixa esse manuscrito passar sem uma pergunta específica: o instrumento foi testado quanto à invariância de mensuração entre os grupos comparados? Se a resposta é não, a comparação pode estar medindo construtos diferentes e apresentando o resultado como se fosse a mesma coisa.

O que invariância de mensuração realmente testa

A invariância de mensuração avalia se um instrumento mede o mesmo construto, com a mesma estrutura, no mesmo metrônomo entre grupos ou momentos. Putnick e Bornstein (2016), em revisão publicada em Developmental Review com 126 estudos e 269 testes de invariância, formalizaram a convenção atual de testes em quatro níveis hierárquicos progressivos.

O nível configural verifica se a estrutura fatorial básica — quantos fatores existem, quais itens carregam em quais fatores — é a mesma em ambos os grupos. O nível métrico adiciona a restrição de cargas fatoriais iguais, condição necessária para comparar covariâncias e correlações entre grupos. O nível escalar adiciona a restrição de interceptos iguais, condição necessária para comparar médias latentes entre grupos. O nível estrito adiciona a restrição de resíduos iguais, condição requerida em poucos contextos cross-cultural.

A consequência operacional é severa. Sem invariância escalar estabelecida, a afirmação “o grupo A pontua mais alto em ansiedade do que o grupo B” pode estar refletindo não diferença real no construto, mas viés sistemático de resposta. Itens podem ser interpretados de forma diferente em cada cultura, e a diferença de médias observada absorve esse ruído.

O padrão típico de falha

Em projetos reais, o padrão mais comum não é falha total — é falha localizada no nível escalar. O modelo configural passa, o modelo métrico passa com folga, e o modelo escalar falha por dois ou três itens cujos interceptos diferem substancialmente entre grupos. Esse é o caso que o pareceirista metodológico identifica imediatamente e onde a invariância parcial entra como solução documentada.

Gráfico de barras comparando ΔCFI entre quatro modelos hierárquicos de invariância de mensuração; o modelo escalar excede o limite crítico de Chen (2007)
ΔCFI observado em sequência típica de testes de invariância de mensuração em instrumento traduzido entre dois grupos. Os limites críticos de Chen (2007) — ΔCFI < 0,010 — são representados como referência. O padrão observado é canônico na literatura revisada por Putnick e Bornstein (2016): configural e métrico passam, escalar falha por interceptos não-invariantes, e invariância parcial escalar é recuperada após liberar restrições em itens identificados por modification indices. O comportamento se repete em adaptações cross-cultural de escalas estabelecidas como a PSS-10, a CES-D, o BFI e a SF-36.

A invariância parcial escalar, formalizada por Byrne, Shavelson e Muthén (1989) e atualizada por Putnick e Bornstein (2016), permite manter a comparação de médias latentes desde que pelo menos dois itens por fator mantenham interceptos invariantes. A solução não é cosmética — exige justificativa teórica para cada liberação, exige reportar quais itens divergiram, e exige discutir o que essa divergência significa substantivamente.

Por que a maioria dos manuscritos ignora o teste

Três razões aparecem com frequência. A primeira é desconhecimento metodológico: o autor aprendeu a testar consistência interna via alfa de Cronbach e considera que isso esgota a questão da equivalência psicométrica. A segunda é confiança no protocolo de tradução: back-translation foi feita, comitê de juízes aprovou, painel piloto não acusou problemas, então assume-se que o instrumento é equivalente. A terceira é ausência de software ou expertise: testes de invariância exigem modelagem de equações estruturais com restrições crescentes, software apropriado (lavaan, semTools, Mplus, AMOS), e leitura técnica de fit indices.

Nenhuma dessas razões sustenta o manuscrito quando o revisor metodológico abre a seção de validação. Consistência interna alta em cada grupo é compatível com não-invariância. Protocolo de tradução cuidadoso reduz a probabilidade de falha mas não substitui o teste empírico. E a ausência de teste de invariância é, em si, uma omissão metodológica suficiente para parecer crítico ou desk reject em revistas de método quantitativo rigoroso.

O que entregar na seção de validação

A seção de validação de um manuscrito que compara grupos via questionário deve conter, na ordem em que pareceristas procuram: estatísticas descritivas por grupo, evidência de consistência interna por grupo, teste de invariância configural com fit indices reportados, teste de invariância métrica com ΔCFI, ΔRMSEA e ΔSRMR comparados aos limites de Chen (2007) — ΔCFI < 0,010, ΔRMSEA < 0,015, ΔSRMR < 0,015, teste de invariância escalar com mesmos limites, e, se a invariância escalar falhar, teste de invariância parcial com justificativa para cada item liberado.

O código que executa essa sequência em R via lavaan cabe em menos de cinquenta linhas. O Mplus opera com sintaxe equivalente. O custo computacional é baixo. O custo de não fazer é uma rodada inteira de revisão para reanalisar dados que já estavam no banco.

Referências

  1. Putnick, D. L., & Bornstein, M. H. (2016). Measurement Invariance Conventions and Reporting: The State of the Art and Future Directions for Psychological Research https://doi.org/10.1016/j.dr.2016.06.004
  2. Chen, F. F. (2007). Sensitivity of Goodness of Fit Indexes to Lack of Measurement Invariance https://doi.org/10.1080/10705510701301834
  3. Byrne, B. M., Shavelson, R. J., & Muthén, B. (1989). Testing for the equivalence of factor covariance and mean structures: The issue of partial measurement invariance https://doi.org/10.1037/0033-2909.105.3.456
  4. Cheung, G. W., & Rensvold, R. B. (2002). Evaluating Goodness-of-Fit Indexes for Testing Measurement Invariance https://doi.org/10.1207/S15328007SEM0902_5

Esta análise reflete a operação da Aria em Validação de Instrumento e Modelagem de Equações Estruturais.

Se o seu projeto está em um ponto onde esse tipo de leitura é útil, considere apresentar o manuscrito ou os dados para um diagnóstico técnico em até 48 horas úteis.

Solicitar orçamento