P-valor sozinho não passa: o que pareceristas Q1 leem na seção de resultados

Periódicos Q1 não baniram o p-valor. Baniram o p-valor sozinho. A diferença é pequena no enunciado e enorme no que ela exige do pesquisador na hora de escrever a seção de resultados. Em 2016, a American Statistical Association publicou o primeiro statement institucional da sua história sobre prática estatística específica, e a partir dele a prática editorial em revistas top de psicologia, ciências sociais, saúde pública e biomédica caminhou em direção a um pacote mínimo de reporte que pareceristas hoje procuram automaticamente: tamanho de efeito, intervalo de confiança, justificativa de poder estatístico, e interpretação substantiva separada da inferencial. O pesquisador que ainda apresenta resultados como “p < 0,05, portanto significativo” está entregando uma seção de resultados de 2010 num venue que lê 2026.

Forest plot comparando os benchmarks tradicionais de Cohen 1988 e a faixa típica de Funder e Ozer 2019 contra os outliers de Cohen's d entre 2,85 e 3,71 identificados por Fricker e colegas em manuscritos pós-ban da BASP em 2016 — Magnitude de Cohen's d em pesquisa empírica observada. Os benchmarks tradicionais de Cohen (1988) e a faixa típica documentada por Funder e Ozer (2019) cobrem valores entre 0,20 e 1,30; os quatro outliers identificados por Fricker e colegas (2019) em manuscritos publicados na BASP após o banimento do p-valor situam-se entre d = 2,85 e d = 3,71, magnitudes que excedem três vezes a faixa típica.

O contraste no gráfico ilustra o problema que a comunidade estatística passou a reconhecer publicamente a partir de 2016. Quando autores removem a inferência por significância e mantêm apenas a magnitude do efeito, sem disciplina editorial complementar, as estimativas começam a se afastar substancialmente do que a literatura do campo sustenta como plausível. O pacote mínimo que pareceristas Q1 procuram hoje existe para evitar exatamente esse cenário, e ele responde a quatro perguntas distintas que nenhum p-valor isolado consegue responder.

O que o ASA fez em 2016 (e o que continuou acontecendo depois)

O statement e seus seis princípios

A American Statistical Association nunca tinha emitido um documento de posicionamento sobre prática estatística específica na sua história de 177 anos. O statement de 2016, redigido por Ronald Wasserstein e Nicole Lazar e construído ao longo de mais de um ano por um grupo de mais de vinte especialistas com pontos de vista deliberadamente divergentes, foi a primeira vez ¹. O documento articula seis princípios. Os princípios afirmam que p-valores não medem a probabilidade da hipótese ser verdadeira; não medem o tamanho do efeito nem a importância do achado; uma decisão científica não deveria depender apenas de um p-valor cruzar um limiar fixo; p-valores reportados isoladamente fornecem evidência fraca; e inferência adequada exige reporte completo e transparência.

A leitura literal dos seis princípios mostra que o ASA não baniu o p-valor: pediu que ele pare de ser tratado como prova de algo que ele não é. Três anos depois, num número suplementar inteiro do The American Statistician dedicado ao tema, Wasserstein, Schirm e Lazar adicionaram uma instrução nova: parar de usar o termo “estatisticamente significativo” ². O número trouxe 43 artigos com propostas concretas de como reportar inferência sem cair na dicotomia significativo/não-significativo. A direção é clara: continue calculando p-valores, mas pare de usá-los como o switch que separa achado relevante de achado irrelevante.

O caso BASP e o que journals fizeram em seguida

Antes do ASA falar, a revista Basic and Applied Social Psychology já tinha tomado uma decisão mais radical. Em fevereiro de 2015, o editorial de Trafimow e Marks anunciou o banimento completo do null hypothesis significance testing, proibindo p-valores, valores-t, valores-F, e até intervalos de confiança nos manuscritos publicados. Um ano depois do banimento entrar em vigor, Ronald Fricker e colegas auditaram os 31 artigos publicados na BASP em 2016 e encontraram um padrão preocupante: na ausência de teste de significância, os autores frequentemente sustentavam conclusões mais fortes do que os dados permitiriam se a inferência estatística tradicional tivesse sido aplicada ³. O leitor, sem acesso ao mecanismo de teste, não tinha como reconhecer a fragilidade dos resultados.

O experimento radical da BASP serve menos como modelo a seguir e mais como evidência empírica de que o problema central não é o p-valor em si: é o que se faz com ele. Daí o vetor que ganhou mais tração: não banir, mas exigir que p-valores sejam acompanhados de informação substantiva sobre magnitude e precisão do efeito. McShane, Gal, Gelman, Robert e Tackett foram mais longe e propuseram abandonar a noção de “significância estatística” como categoria binária, tratando o p-valor como uma evidência contínua entre outras: magnitude do efeito, plausibilidade do mecanismo, qualidade do desenho, custos do mundo real ⁴. Há contrapontos relevantes. Leek e Peng argumentaram numa coluna da Nature que p-valores são apenas a ponta do iceberg, e que o problema real está em todas as decisões anteriores no pipeline da pesquisa (desenho experimental, controle de viéses, qualidade da medida) que nenhum banimento de p-valor resolve ⁵. O ponto vale: o problema é maior que o p-valor. Mas é justamente esse ponto que justifica o pacote mínimo de reporte que pareceristas Q1 procuram hoje.

O pacote mínimo que pareceristas Q1 procuram hoje

Há quatro coisas que um parecerista de periódico Q1 abre a seção de resultados procurando. Quando alguma falta, o parecer vai para revisão major ou rejeição.

Tamanho de efeito como argumento de relevância

A primeira coisa que falta com mais frequência. Tamanho de efeito é a magnitude do achado: Cohen’s d, η², Pearson’s r, razão de chances, diferença de médias com unidade original. Sem ele, o parecerista não sabe se o efeito significativo é grande o suficiente para importar. Um efeito que cruza p < 0,05 com n = 10.000 pode ser trivialmente pequeno em magnitude. Um efeito que não cruza p < 0,05 com n = 30 pode ser substantivamente relevante mas com poder inadequado para detectar. O p-valor não distingue os dois cenários; o tamanho de efeito sim. Nakagawa e Cuthill estabeleceram o argumento canônico em biologia: null hypothesis significance testing não fornece duas informações essenciais, a magnitude do efeito de interesse e a precisão dessa magnitude. Por isso defendem reporte de effect size e intervalo de confiança em todos os periódicos biológicos ⁶. O argumento se generaliza.

Reportar effect size sem interpretá-lo é metade do trabalho. Funder e Ozer mostram que o uso de benchmarks arbitrários (small/medium/large na convenção de Cohen) é frequentemente enganador, e que effect sizes só ganham sentido quando comparados a benchmarks bem entendidos da literatura específica ou a consequências concretas ⁷. Um r de 0,10 que parece “pequeno” pela tabela de Cohen pode ser substantivamente consequencial em escala populacional. Um r de 0,40 que parece “grande” pode ser superestimativa de amostra pequena, improvável de se sustentar em replicação.

Intervalo de confiança como argumento de precisão

A segunda coisa que falta. Intervalo de confiança traz a precisão do estimador: quão estreito ou largo é o intervalo plausível para o valor verdadeiro do parâmetro na população. Hespanhol e colegas explicam que reportar o intervalo permite ao leitor avaliar se o achado, mesmo significativo, é compatível com efeitos clinicamente relevantes, ou se cobre uma faixa tão larga que abarca desde efeitos irrelevantes até efeitos grandes, caso em que a “significância” é informativa mas a precisão é baixa demais para sustentar inferência prática ⁸. O intervalo de confiança não é decorativo; é a leitura honesta da incerteza do achado.

Pareceristas treinados sabem ler o intervalo de duas formas: a largura (precisão) e os valores que ele cobre (relevância substantiva). Um IC de 95% que cobre desde efeito clinicamente trivial até efeito clinicamente importante é diferente de um IC estreito centrado num valor importante, mesmo que ambos cruzem o limiar de significância.

Justificativa de poder como argumento de desenho

A terceira coisa que falta, e que delata projetos mal planejados antes mesmo da análise. Justificativa de poder estatístico responde a uma pergunta que o parecerista faz no segundo parágrafo dos métodos: dado o tamanho de efeito esperado para esse tipo de fenômeno, esse n é suficiente para detectá-lo com probabilidade aceitável? Sem essa justificativa, o leitor não consegue distinguir um achado nulo verdadeiro (efeito não existe) de um achado nulo por subpotência (efeito existe mas a amostra era pequena demais para detectar).

Daniël Lakens organiza seis abordagens defensáveis de justificar um tamanho amostral, das quais power analysis a priori é apenas uma: coletar dados de toda a população, restrição por recursos, planejamento por precisão desejada, uso de heurísticas, e até reconhecimento explícito da ausência de justificativa são abordagens legítimas quando bem articuladas ⁹. O ponto de vista do parecerista não é que toda análise precisa de power calculation formal; é que toda análise precisa de uma narrativa explícita sobre por que o n escolhido é suficiente para os objetivos inferenciais declarados.

Os três padrões que derrubam a seção de resultados

Pareceristas Q1 reconhecem três padrões rápidos que sinalizam fragilidade metodológica. Um deles num manuscrito é alerta; dois é major revision; três é desk reject ou rejection após primeira rodada.

P-valor sozinho como prova de efeito

Sentenças como “houve diferença significativa entre os grupos (p = 0,03)” sem effect size acompanhando, sem intervalo de confiança, sem interpretação substantiva. O parecerista lê isso e pergunta automaticamente: diferença de quanto, em que direção, com qual precisão, e se é uma diferença que importa no contexto da literatura? Quando a resposta não está no manuscrito, o problema não é estilístico. É que o autor não sabe se o achado é substantivo ou se é artefato de uma amostra grande aplicada a um efeito trivial.

Effect size sem interpretação substantiva

O sinal oposto, e quase igualmente comum: o autor reporta um d = 0,42 ou um R² = 0,15 e segue para o próximo resultado sem dizer o que isso significa no contexto da literatura do campo. O parecerista treinado sabe que d = 0,42 num campo onde a literatura sustenta efeitos médios entre 0,10 e 0,20 é resultado notável; o mesmo d = 0,42 num campo onde efeitos médios giram em 0,60 é abaixo da média. O effect size só fala quando contextualizado.

Múltiplos testes sem correção declarada

O padrão que mais consistentemente sinaliza p-hacking, intencional ou não. Quando um manuscrito reporta dez, vinte, trinta testes de hipótese sem mencionar nem correção para múltiplas comparações nem por que a correção não se aplica, o parecerista calcula sozinho: com α = 0,05 e dez testes independentes, a probabilidade de pelo menos um falso positivo é de quase 40%. Streiner sintetiza as opções práticas e quando cada uma se aplica: Bonferroni, Holm, Hochberg, controle de false discovery rate por Benjamini-Hochberg, e métodos baseados em reamostragem ¹⁰. O ponto não é que toda análise múltipla precisa de correção. É que toda análise múltipla precisa de discussão explícita sobre por que (não) se corrigiu, em que família de testes, sob qual rationale.

Stefan e Schönbrodt compilaram doze estratégias documentadas de p-hacking e simularam o impacto de cada uma sobre taxas de falso positivo ¹¹. Boa parte dessas estratégias não deixa traço visível no manuscrito final. Exclusão seletiva de outliers, escolha tardia de teste estatístico, paragem de coleta após resultado significativo: tudo invisível na escrita, tudo deixando pegadas estatísticas que pareceristas treinados aprenderam a reconhecer. Altman e Krzywinski mostraram numa coluna da Nature Methods que mesmo reportar intervalo de confiança não corrige seleção do resultado mais significativo entre múltiplos testes: o intervalo do “vencedor” tem cobertura abaixo do nominal ¹². A defesa não é estilística, é estrutural: declarar quantos testes foram conduzidos, em que ordem, com qual hipótese pré-especificada.

Como reescrever a seção de resultados pensando em parecerista Q1

Calin-Jageman e Cumming sintetizaram o framework editorial em três perguntas que organizam o gênero textual da seção de resultados em Q1 contemporâneo: how much, how uncertain, what else is known ¹³. A primeira pergunta exige tamanho de efeito; a segunda exige intervalo de confiança e justificativa de poder; a terceira exige integração com a literatura, meta-analítica quando disponível, comparativa quando não. Quando os três elementos aparecem juntos para cada achado central, a seção de resultados passa a se ler como inferência substantiva. Quando algum falta, o parecerista percebe imediatamente.

A direção editorial de revistas Q1 específicas tem se movido nessa direção. Em outubro de 2023, The Journal of Physiology publicou um editorial assinado por Williams, Carson e Tóth recomendando explicitamente que autores submetendo ao periódico reportem effect size e intervalo de confiança junto com qualquer p-valor, e enquadrando essa expectativa como direção editorial, não como pedido cosmético ¹⁴. O movimento se replica em outros venues. Pareceristas formados nesses periódicos carregam essa expectativa quando avaliam manuscritos em outras revistas.

A reescrita que sustenta o argumento editorial moderno não é cosmética. Exige reorganizar a apresentação de cada resultado em torno de magnitude, precisão e contexto, e separar conscientemente o que é evidência inferencial do que é interpretação substantiva. Isso exige tempo, expertise estatística atualizada com o estado da arte editorial, e leitura sensível do que cada periódico-alvo está procurando.

P-valor sozinho não passa: o que pareceristas Q1 leem na seção de resultados

O que o ASA fez em 2016 (e o que continuou acontecendo depois)

O statement e seus seis princípios

O caso BASP e o que journals fizeram em seguida

O pacote mínimo que pareceristas Q1 procuram hoje

Tamanho de efeito como argumento de relevância

Intervalo de confiança como argumento de precisão

Justificativa de poder como argumento de desenho

Os três padrões que derrubam a seção de resultados

P-valor sozinho como prova de efeito

Effect size sem interpretação substantiva

Múltiplos testes sem correção declarada

Como reescrever a seção de resultados pensando em parecerista Q1

Referências

Esta análise reflete a operação da Aria em Análise Estatística e Revisão e Reescrita.

O que o ASA fez em 2016 (e o que continuou acontecendo depois)

O statement e seus seis princípios

O caso BASP e o que journals fizeram em seguida

O pacote mínimo que pareceristas Q1 procuram hoje

Tamanho de efeito como argumento de relevância

Intervalo de confiança como argumento de precisão

Justificativa de poder como argumento de desenho

Os três padrões que derrubam a seção de resultados

P-valor sozinho como prova de efeito

Effect size sem interpretação substantiva

Múltiplos testes sem correção declarada

Como reescrever a seção de resultados pensando em parecerista Q1

Referências

Esta análise reflete a operação da Aria em Análise Estatística e Revisão e Reescrita.

Análise bibliométrica como argumento empírico de tese

Invariância de mensuração em instrumentos traduzidos

Modelagem multinível: quando MLM é obrigatório e quando OLS basta