p-hacking e HARKing — Glossário Aria Research

Definição estendida

P-hacking e HARKing são duas práticas que inflam a taxa de falsos positivos na literatura ao explorar a flexibilidade do pesquisador na análise e na narrativa de um estudo. P-hacking é a tentativa, consciente ou não, de várias análises, exclusões de dados, transformações ou pontos de parada da coleta até que um resultado cruze o limiar de significância. Simmons e colaboradores (2011) batizaram essa flexibilidade de graus de liberdade do pesquisador e mostraram, por simulação e experimento, como ela permite apresentar quase qualquer hipótese como estatisticamente significativa. HARKing, sigla de hypothesizing after the results are known, é a prática descrita por Kerr (1998): formular uma hipótese depois de ver os resultados e apresentá-la como se tivesse sido prevista antes da coleta. As duas se distinguem mas se reforçam: o p-hacking fabrica o resultado significativo, o HARKing constrói a história que o justifica. Head e colaboradores (2015) usaram mineração de texto para mostrar que o p-hacking é disseminado em várias áreas, ainda que seu efeito agregado sobre conclusões de meta-análises seja, em média, moderado.

Quando se aplica

O conceito se aplica como lente crítica ao avaliar um estudo: ajuda a perguntar se um resultado significativo sobreviveria a análises pré-especificadas ou se nasceu da busca pelo p baixo. Aplica-se à interpretação de literaturas com muitos resultados positivos e poucos negativos, sinal de que graus de liberdade podem ter sido explorados. Aplica-se ao desenho de estudos robustos: reconhecer p-hacking e HARKing é o que motiva o pré-registro, os registered reports e a análise multiverso, que fixam as decisões antes de ver os dados ou as tornam explícitas. Aplica-se à revisão por pares, como critério para distinguir hipótese genuinamente confirmatória de hipótese exploratória disfarçada. E aplica-se ao ensino de integridade: nomear as práticas é o primeiro passo para evitá-las.

Quando NÃO se aplica

O conceito não se aplica como acusação automática de má-fé: muito p-hacking e HARKing ocorrem sem intenção, por vieses cognitivos e por incentivos que premiam o resultado positivo. Não se aplica à pesquisa exploratória honesta: explorar dados e gerar hipóteses é legítimo, desde que rotulado como exploratório e não apresentado como teste confirmatório. Não se aplica como sinônimo de qualquer análise flexível; ajustes justificados e pré-especificados não são p-hacking. Não se aplica para invalidar toda uma área: Head e colaboradores (2015) mostraram que, embora disseminado, o p-hacking nem sempre derruba o consenso de uma meta-análise. E não se aplica sem distinguir os dois fenômenos: tratar p-hacking e HARKing como a mesma coisa apaga a diferença entre fabricar o número e reescrever a previsão.

Aplicações por área

Psicologia e ciências sociais: origem do debate e foco da crise de replicação, onde graus de liberdade são amplos.
Biomedicina: ensaios e estudos observacionais em que desfechos múltiplos abrem espaço para seleção do resultado.
Ecologia e evolução: campo do estudo de Head e colaboradores, com p-hacking detectável em larga escala por mineração de texto.
Metaciência e integridade: avaliação sistêmica de literaturas e desenho de salvaguardas como pré-registro.

Armadilhas comuns

A primeira armadilha é confundir exploração legítima com fraude: gerar hipóteses a partir de dados é válido se declarado como exploratório. A segunda é supor que p-hacking exige má intenção, quando vieses e incentivos o produzem sem dolo. A terceira é tratar p-hacking e HARKing como idênticos, perdendo a distinção entre manipular a análise e reescrever a hipótese. A quarta é confiar que um único p baixo é evidência forte sem saber quantas análises foram tentadas. A quinta é acreditar que apenas mais rigor estatístico resolve, ignorando que a solução estrutural passa por pré-registro, transparência das decisões analíticas e separação explícita entre o confirmatório e o exploratório.