Missing data não é detalhe técnico: o que pareceristas leem com lupa

Tratar dados faltantes, o missing data dos relatórios, não é uma etapa de limpeza que se resolve antes de a análise começar. É uma decisão metodológica que altera as estimativas, os erros padrão e, com eles, a conclusão do estudo. Pareceristas de periódicos Q1 sabem disso e leem a seção de dados faltantes com lupa: querem saber qual mecanismo o autor assumiu, por que assumiu, e se o método de tratamento é coerente com essa suposição. Quando a justificativa não aparece, o que fica exposto não é um detalhe operacional, é a validade do resultado.

O vocabulário que organiza essa decisão vem de Rubin (1976)⁶, que formalizou as condições sob as quais o processo gerador da ausência pode ser ignorado na inferência. Sobre essa base, Schafer e Graham (2002)³ consolidaram a distinção entre dados faltantes completamente ao acaso, ao acaso e não ao acaso, e mostraram por que a exclusão de casos e a imputação por um único valor distorcem tanto os coeficientes quanto a sua precisão. O ponto central dessa literatura é desconfortável para quem trata o assunto como rotina: o mecanismo de ausência é uma suposição que o analista precisa defender, não uma propriedade que se lê diretamente dos dados. Nenhum teste decide sozinho se os dados são MAR ou MNAR. A defesa é argumentativa, ancorada no desenho do estudo e no que se sabe sobre por que os valores faltaram.

Dessa suposição decorre a escolha do método, e é aqui que o reflexo automático falha. A imputação múltipla virou sinônimo de boa prática, mas Hughes e colegas (2019)² mostram, com diagramas de ausência, que a análise de casos completos é não enviesada em mais situações do que se costuma supor, incluindo certas estruturas MNAR, enquanto a imputação múltipla assumindo MAR pode ser enviesada nessas mesmas situações. A regra não é imputar sempre nem deletar sempre. É fazer a escolha seguir o mecanismo assumido. Pedersen e colegas (2017)⁴ traduzem essa lógica para a pesquisa aplicada, detalhando quando a imputação múltipla propaga corretamente a incerteza que a imputação por valor único esconde. E van Ginkel e colegas (2020)⁵ desmontam as objeções que sustentam parte da resistência ao método, a de que a imputação inventa dados e a de que deletar é sempre mais seguro.

Há um mito mais resistente que esses, o de que a quantidade de dados faltantes é o que decide se a imputação vale a pena. Um autor olha para 5% de ausência e relaxa, olha para 50% e entra em pânico, como se a porcentagem fosse o parâmetro de risco. Hao e colegas (2025)¹ testaram essa intuição diretamente. Numa simulação sobre um banco de artroplastia de ombro, eles inseriram ausência sob três mecanismos, MCAR, MAR e NMAR, em diferentes proporções, e mediram o erro da imputação contra o dado completo. O que separa os resultados não é quanto faltou, é por que faltou.

Gráfico de barras agrupadas com o RMSE e o MAPE da imputação por mecanismo de ausência: MCAR 22,6 e 27,2%, MAR 19,2 e 17,7%, e NMAR 37,5 e 79,2%. — RMSE e MAPE da imputação por mecanismo de ausência, na simulação de Hao e colegas (2025). O erro é parecido sob MCAR e MAR, mas dispara sob NMAR, onde a ausência depende do próprio valor que falta. A proporção de dados faltantes pouco altera o resultado.

A leitura da figura é direta e contraintuitiva. Sob MCAR e MAR, o erro da imputação fica próximo, com RMSE de 22,6 e 19,2 e MAPE de 27,2% e 17,7%. Sob NMAR ele dispara: o RMSE sobe para 37,5 e o MAPE para 79,2%, quase três vezes o erro sob dados aleatórios. A proporção de ausência, como os próprios autores notam, pouco altera esses números; o que muda tudo é o mecanismo. A razão é estrutural: sob NMAR a probabilidade de um valor faltar depende do próprio valor não observado, então nenhum modelo padrão, que aprende a partir do que sobrou, reconstrói o que foi sistematicamente apagado. O que governa o resultado não é quanto falta, é por que falta.

Para o autor que monta a seção de métodos, isso vira uma sequência de obrigações verificáveis. A primeira é declarar o mecanismo assumido e justificá-lo pelo desenho, não afirmá-lo sem argumento. A segunda é escolher o método de tratamento em coerência com essa suposição: casos completos quando ele é suficiente e defensável, imputação múltipla quando há informação auxiliar que reduz o viés e recupera eficiência. A terceira é especificar o modelo de imputação para incluir as variáveis ligadas ao mecanismo e ao desfecho, porque sob MAR é essa informação auxiliar que torna a ausência ignorável, enquanto sob NMAR, como mostra a figura, o erro dispara e nenhuma imputação padrão o corrige. A quarta é relatar a fração de informação faltante e conduzir análises de sensibilidade quando a suposição de MAR é frágil.

Nenhuma dessas decisões é cosmética, e é por isso que o parecerista as procura. Um estudo que apaga mais da metade dos casos sem dizer por que faltaram, ou que imputa com um modelo que ignora o mecanismo, não tem um problema de execução; tem um problema de inferência que nenhuma sofisticação posterior corrige. A regra operacional é tratar a ausência como parte do modelo, não como um obstáculo a remover antes de modelar. O mecanismo justificado decide o método; o método coerente com o mecanismo, e não o percentual de dados que sobraram, decide se a estimativa significa o que o estud

Missing data não é detalhe técnico: o que pareceristas leem com lupa

Referências

Esta análise reflete a operação da Aria em Tratamento de Resultados de Pesquisa e Análise Estatística.

Referências

Esta análise reflete a operação da Aria em Tratamento de Resultados de Pesquisa e Análise Estatística.

Visualização publicável vs exploratória: dois objetos, duas regras

SEM em mediação múltipla: quando a regressão linear deixa de responder

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável