Dados e estatística

Missing data não é detalhe técnico: o que pareceristas leem com lupa

Dados faltantes não são uma etapa de limpeza. A escolha entre deletar casos e imputar muda estimativas e erros padrão, e pareceristas Q1 leem essa decisão de perto. O que governa a validade é o mecanismo de ausência assumido, não a porcentagem que faltou. Numa simulação, o erro da imputação foi parecido sob MCAR e MAR, mas disparou sob NMAR, onde a ausência depende do próprio valor que falta.

Tratar dados faltantes, o missing data dos relatórios, não é uma etapa de limpeza que se resolve antes de a análise começar. É uma decisão metodológica que altera as estimativas, os erros padrão e, com eles, a conclusão do estudo. Pareceristas de periódicos Q1 sabem disso e leem a seção de dados faltantes com lupa: querem saber qual mecanismo o autor assumiu, por que assumiu, e se o método de tratamento é coerente com essa suposição. Quando a justificativa não aparece, o que fica exposto não é um detalhe operacional, é a validade do resultado.

O vocabulário que organiza essa decisão vem de Rubin (1976)6, que formalizou as condições sob as quais o processo gerador da ausência pode ser ignorado na inferência. Sobre essa base, Schafer e Graham (2002)3 consolidaram a distinção entre dados faltantes completamente ao acaso, ao acaso e não ao acaso, e mostraram por que a exclusão de casos e a imputação por um único valor distorcem tanto os coeficientes quanto a sua precisão. O ponto central dessa literatura é desconfortável para quem trata o assunto como rotina: o mecanismo de ausência é uma suposição que o analista precisa defender, não uma propriedade que se lê diretamente dos dados. Nenhum teste decide sozinho se os dados são MAR ou MNAR. A defesa é argumentativa, ancorada no desenho do estudo e no que se sabe sobre por que os valores faltaram.

Dessa suposição decorre a escolha do método, e é aqui que o reflexo automático falha. A imputação múltipla virou sinônimo de boa prática, mas Hughes e colegas (2019)2 mostram, com diagramas de ausência, que a análise de casos completos é não enviesada em mais situações do que se costuma supor, incluindo certas estruturas MNAR, enquanto a imputação múltipla assumindo MAR pode ser enviesada nessas mesmas situações. A regra não é imputar sempre nem deletar sempre. É fazer a escolha seguir o mecanismo assumido. Pedersen e colegas (2017)4 traduzem essa lógica para a pesquisa aplicada, detalhando quando a imputação múltipla propaga corretamente a incerteza que a imputação por valor único esconde. E van Ginkel e colegas (2020)5 desmontam as objeções que sustentam parte da resistência ao método, a de que a imputação inventa dados e a de que deletar é sempre mais seguro.

Há um mito mais resistente que esses, o de que a quantidade de dados faltantes é o que decide se a imputação vale a pena. Um autor olha para 5% de ausência e relaxa, olha para 50% e entra em pânico, como se a porcentagem fosse o parâmetro de risco. Hao e colegas (2025)1 testaram essa intuição diretamente. Numa simulação sobre um banco de artroplastia de ombro, eles inseriram ausência sob três mecanismos, MCAR, MAR e NMAR, em diferentes proporções, e mediram o erro da imputação contra o dado completo. O que separa os resultados não é quanto faltou, é por que faltou.

Gráfico de barras agrupadas com o RMSE e o MAPE da imputação por mecanismo de ausência: MCAR 22,6 e 27,2%, MAR 19,2 e 17,7%, e NMAR 37,5 e 79,2%.
RMSE e MAPE da imputação por mecanismo de ausência, na simulação de Hao e colegas (2025). O erro é parecido sob MCAR e MAR, mas dispara sob NMAR, onde a ausência depende do próprio valor que falta. A proporção de dados faltantes pouco altera o resultado.

A leitura da figura é direta e contraintuitiva. Sob MCAR e MAR, o erro da imputação fica próximo, com RMSE de 22,6 e 19,2 e MAPE de 27,2% e 17,7%. Sob NMAR ele dispara: o RMSE sobe para 37,5 e o MAPE para 79,2%, quase três vezes o erro sob dados aleatórios. A proporção de ausência, como os próprios autores notam, pouco altera esses números; o que muda tudo é o mecanismo. A razão é estrutural: sob NMAR a probabilidade de um valor faltar depende do próprio valor não observado, então nenhum modelo padrão, que aprende a partir do que sobrou, reconstrói o que foi sistematicamente apagado. O que governa o resultado não é quanto falta, é por que falta.

Para o autor que monta a seção de métodos, isso vira uma sequência de obrigações verificáveis. A primeira é declarar o mecanismo assumido e justificá-lo pelo desenho, não afirmá-lo sem argumento. A segunda é escolher o método de tratamento em coerência com essa suposição: casos completos quando ele é suficiente e defensável, imputação múltipla quando há informação auxiliar que reduz o viés e recupera eficiência. A terceira é especificar o modelo de imputação para incluir as variáveis ligadas ao mecanismo e ao desfecho, porque sob MAR é essa informação auxiliar que torna a ausência ignorável, enquanto sob NMAR, como mostra a figura, o erro dispara e nenhuma imputação padrão o corrige. A quarta é relatar a fração de informação faltante e conduzir análises de sensibilidade quando a suposição de MAR é frágil.

Nenhuma dessas decisões é cosmética, e é por isso que o parecerista as procura. Um estudo que apaga mais da metade dos casos sem dizer por que faltaram, ou que imputa com um modelo que ignora o mecanismo, não tem um problema de execução; tem um problema de inferência que nenhuma sofisticação posterior corrige. A regra operacional é tratar a ausência como parte do modelo, não como um obstáculo a remover antes de modelar. O mecanismo justificado decide o método; o método coerente com o mecanismo, e não o percentual de dados que sobraram, decide se a estimativa significa o que o estud

Referências

  1. Hao, K. A.; Vasilopoulos, T.; Elwell, J.; Roche, C. P.; Hones, K. M.; Wright, J. O.; King, J. J.; Wright, T. W.; Simovitch, R. W.; Schoch, B. S. (2025). Missing Data in Orthopaedic Clinical Outcomes Research: A Sensitivity Analysis of Imputation Techniques Utilizing a Large Multicenter Total Shoulder Arthroplasty Database https://doi.org/10.3390/jcm14113829
  2. Hughes, R. A.; Heron, J.; Sterne, J. A. C.; Tilling, K. (2019). Accounting for missing data in statistical analyses: multiple imputation is not always the answer https://doi.org/10.1093/ije/dyz032
  3. Schafer, J. L.; Graham, J. W. (2002). Missing data: Our view of the state of the art https://doi.org/10.1037/1082-989X.7.2.147
  4. Pedersen, A. B.; Mikkelsen, E. M.; Cronin-Fenton, D.; et al. (2017). Missing data and multiple imputation in clinical epidemiological research https://doi.org/10.2147/CLEP.S129785
  5. van Ginkel, J. R.; Linting, M.; Rippe, R. C. A.; van der Voort, A. (2020). Rebutting Existing Misconceptions About Multiple Imputation as a Method for Handling Missing Data https://doi.org/10.1080/00223891.2018.1530680
  6. Rubin, D. B. (1976). Inference and missing data https://doi.org/10.1093/biomet/63.3.581

Esta análise reflete a operação da Aria em Tratamento de Resultados de Pesquisa e Análise Estatística.

Se o seu projeto está em um ponto onde esse tipo de leitura é útil, considere apresentar o manuscrito ou os dados para um diagnóstico técnico em até 48 horas úteis.

Solicitar orçamento