IA generativa em revisão sistemática: ferramenta ou atalho?

A IA generativa entrou na revisão sistemática pela porta da triagem, a etapa em que milhares de títulos e resumos precisam ser lidos para decidir o que entra na síntese. A promessa é real: um modelo de linguagem lê em minutos o que uma equipe leva semanas para examinar. Mas a mesma facilidade que torna a ferramenta atraente é a que a transforma em atalho, e a diferença entre as duas não está no modelo, está no protocolo. Uma revisão sistemática é, por definição, um método transparente e reproduzível; usar um modelo de linguagem sem submetê-lo a esse método troca o rigor pela velocidade e entrega ao leitor uma síntese cuja seleção ficou sem auditoria.

O ponto de partida é entender o que esses modelos realmente fazem na triagem, e isso foi medido. Sanghera e colegas (2025)¹ compararam seis modelos de linguagem na triagem de títulos e resumos, replicando decisões de inclusão de 23 revisões Cochrane sobre uma base equilibrada de 800 resumos.

Gráfico de barras agrupadas com sensibilidade e especificidade de quatro LLMs na triagem: GPT-3.5 marca 1,000 e 0,393; GPT-4, 0,605 e 0,975; GPT-4o, 0,911 e 0,896; Sonnet 3.5, 0,819 e 0,966. — Sensibilidade e especificidade de quatro modelos de linguagem na triagem de resumos, na medição de Sanghera e colegas (2025), base de 800 resumos. Nenhum modelo é alto nas duas: a recall perfeita do GPT-3.5 (1,000) vem com especificidade de 0,393, que quase não exclui nada.

A leitura da figura é o argumento central. O GPT-3.5 alcançou sensibilidade perfeita, 1,000, sem perder nenhum estudo relevante; mas a sua especificidade desabou para 0,393, o que significa que ele mantém quase tudo e por isso não poupa o trabalho que deveria justificar o seu uso. O GPT-4 inverte o quadro, com 0,605 de sensibilidade e 0,975 de especificidade, seletivo demais a ponto de descartar relevantes. O GPT-4o equilibra os dois em 0,911 e 0,896, e o Sonnet 3.5 fica em 0,819 e 0,966. Nenhum modelo é, ao mesmo tempo, seguro para não perder estudos e seletivo para reduzir trabalho. Esse é exatamente o vão que o julgamento humano precisa cobrir, e a razão pela qual o modelo é um triador, não um decisor.

Há ainda um problema mais sutil, o de que o desempenho aparente pode ser um artefato da medição. Khraisha e colegas (2024)², numa avaliação pré-registrada com o humano fora do circuito, encontraram paridade aparente com humanos que desaparecia assim que a concordância por acaso e o desequilíbrio da base eram descontados. Em outras palavras, um número alto sem o ajuste correto pode anunciar uma competência que não existe. Por isso a triagem por modelo precisa ser validada contra um padrão-ouro humano antes de qualquer confiança, e não aceita pela métrica bruta.

O que separa a ferramenta do atalho é, então, um protocolo verificável, e a literatura já o descreve. Oami e colegas (2024)⁴ mostram que o resultado da triagem é função do prompt: a sensibilidade saltou de 0,75 para 0,91 com uma modificação na instrução, o que significa que o prompt é uma decisão metodológica e precisa ser pré-especificado e relatado, não improvisado. Cao e colegas (2025)⁵ levam isso ao extremo correto, desenvolvendo e validando prompts genéricos em dez revisões, com sensibilidade de 97,7% contra o desempenho quase aleatório de prompts zero-shot. E Guo e colegas (2023)³ enquadram o uso legítimo: o modelo como auxílio que prioriza o fluxo de trabalho e explica suas decisões, nunca como substituto do revisor.

A triagem é, ainda assim, a etapa mais fácil para um modelo, porque é uma decisão binária com critérios explícitos. As etapas seguintes castigam mais. A extração de dados exige ler tabelas, reconciliar unidades e localizar o número certo numa figura, e é justamente onde o desempenho dos modelos cai e os erros passam a contaminar a meta-análise, não apenas a seleção. A avaliação de risco de viés depende de julgamento metodológico fino, o tipo de decisão que um modelo imita sem sustentar. Tratar a competência na triagem como prova de competência nessas etapas é o erro que transforma uma ferramenta útil num gerador de síntese sem fundamento.

Há também a questão da reprodutibilidade, que é o coração da revisão sistemática. Um modelo proprietário muda de versão sem aviso, e a mesma instrução pode devolver decisões diferentes em execuções diferentes, porque a geração não é determinística. Uma revisão que não registra o modelo, a versão, a data e a semente, quando disponível, não pode ser reproduzida nem auditada, e perde a propriedade que a distingue de uma busca informal. Fixar e relatar esses parâmetros não é burocracia; é o que mantém a síntese verificável.

A regra operacional cabe numa sequência que qualquer parecerista pode cobrar. Pré-registrar o uso do modelo, declarando qual modelo, qual versão e qual prompt, porque versão e prompt mudam o resultado de forma medida. Validar o triador contra um subconjunto rotulado por humanos antes de aplicá-lo ao corpus inteiro, reportando sensibilidade e especificidade ajustadas. Usar o modelo como segundo triador em paralelo, ou como triagem inicial cuja exclusão é sempre revista por um humano, jamais como excluidor autônomo. Manter o humano no circuito nas etapas que exigem interpretação, como extração de dados e avaliação de risco de viés, onde o desempenho é mais frágil. E relatar tudo isso na seção de métodos, com os prompts no material suplementar. Uma revisão sistemática que usa IA generativa assim continua sendo uma revisão sistemática; a que delega a seleção a um modelo sem protocolo vira um resumo rápido com aparência de método.

IA generativa em revisão sistemática: ferramenta ou atalho?

Referências

Esta análise reflete a operação da Aria em IA Generativa Aplicada à Pesquisa e Análise Bibliométrica.

Referências

Esta análise reflete a operação da Aria em IA Generativa Aplicada à Pesquisa e Análise Bibliométrica.

Detecção de objetos fora do ImageNet: quando o domínio sai do treino

Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

Modelagem preditiva em ciências sociais: por que o AUC sozinho não basta