Web scraping em pesquisa acadêmica: público não é o mesmo que coletável

Que um dado esteja visível numa página aberta é uma afirmação sobre acesso, não sobre permissão e muito menos sobre ética. Web scraping em pesquisa acadêmica vive exatamente nessa confusão: a facilidade de coletar automaticamente milhões de registros públicos faz parecer que o que é tecnicamente acessível é também livremente utilizável. Não é. A fronteira entre o dado público e o dado eticamente coletável é traçada por consentimento, termos de uso e risco de dano, e nenhum desses limites aparece no código que baixa a página. O parecerista que recebe um estudo baseado em raspagem pergunta, antes de qualquer resultado, como os dados foram obtidos e por que isso foi considerado legítimo.

O primeiro limite que a acessibilidade técnica ignora é contratual. Fiesler e colegas (2020)² analisaram os termos de uso de mais de cem plataformas sociais e encontraram proibições de coleta automatizada frequentes, mas ambíguas, inconsistentes e sem contexto. O fato de uma página carregar no navegador não significa que o site autorize um robô a percorrê-la, e a violação de termos de uso já bastou para gerar litígio. O segundo limite é a expectativa de privacidade. Um usuário que publica num fórum sobre uma condição de saúde escreve para uma comunidade específica, não para um corpus de pesquisa indexado e arquivado indefinidamente. Tratar esse texto como dado livre ignora a integridade contextual da informação. O terceiro limite é o dano: reidentificação, exposição e a circulação de citações atribuíveis a pessoas que nunca souberam que participavam de um estudo.

Esses limites são conhecidos, mas mal observados, e isso foi medido. Taylor e Pagliari (2018)⁴ revisaram 156 estudos de saúde que usaram dados de mídia social e encontraram que apenas 50 mencionavam qualquer consideração ética, em geral apenas para afirmar que a aprovação havia sido obtida ou dispensada. O problema, portanto, não é teórico nem raro: é a prática corrente de tratar o dado público como permissão tácita. Takats e colegas (2022)¹ quantificaram esse hábito numa revisão sistemática de 367 estudos que usaram dados publicamente acessíveis do Twitter.

Gráfico de barras com a parcela de 367 estudos que reportou cada salvaguarda ética: 36% anonimizou e parafraseou, 32% buscou aprovação de comitê, 30% discutiu ética, e 0% tentou consentimento informado. — Salvaguardas éticas reportadas em 367 estudos que usaram dados públicos do Twitter, na revisão de Takats e colegas (2022). Pouco mais de um terço anonimizou, buscou aprovação ética ou discutiu o tema; o consentimento informado do autor das mensagens foi tentado em zero estudos.

A leitura da figura é o argumento. Entre 367 estudos publicados, 36% anonimizaram e parafrasearam as mensagens, 32% buscaram aprovação de um comitê de ética, 30% sequer discutiram considerações éticas, e o consentimento informado dos autores das mensagens foi tentado em nenhum deles. A barra zerada não é um detalhe: é a confirmação de que, na prática, um campo inteiro tratou a disponibilidade pública como consentimento. O que essa lacuna produz quando levada ao extremo está documentado. Chiauzzi e Wicks (2019)⁵ relatam quatro casos de pesquisadores que rasparam uma comunidade de pacientes em violação dos termos de uso e da ética de pesquisa, com retratações e correções como desfecho. O dano não é hipotético, e a defesa de que o dado estava público não o evitou.

A consequência prática não é abandonar a raspagem, e sim conduzi-la de modo defensável. Mancosu e Vegetti (2020)³ mostram o caminho com um exemplo concreto: coletar apenas informação pública e pseudonimizar os identificadores dos usuários com uma função de hash unidirecional, mantendo os registros analisáveis sem expor as pessoas, em conformidade com a regulação de privacidade. Boegershausen e colegas (2022)⁶, revisando mais de trezentos artigos que usaram dados da web, propõem tratar as questões técnicas, legais e éticas em conjunto, e não como um apêndice, ao longo das três etapas da coleta: escolher a fonte, desenhar a coleta e extrair os dados. A validade do dado e a legitimidade da coleta são decididas nas mesmas decisões.

A confusão entre público e coletável se agrava porque o terreno legal é instável e dá falso conforto. Decisões judiciais sobre raspagem variam entre jurisdições e mudam com o tempo, e a restrição de acesso pelas próprias plataformas, depois do fim do acesso aberto às APIs, empurrou pesquisadores de volta à raspagem justamente quando as regras ficaram menos claras. Apoiar-se na frase de que o dado estava público é frágil em dois sentidos: não resolve a questão ética, que independe da legalidade, e nem sequer garante a legal, que depende de onde e quando o estudo é avaliado. A pergunta que sobrevive a essas oscilações não é se era possível coletar, mas se a coleta respeitou as pessoas e os sistemas do outro lado da requisição.

A regra operacional cabe numa sequência verificável antes da primeira requisição. Ler o robots.txt e os termos de uso da fonte e respeitar o que eles proíbem, porque a permissão contratual é distinta do acesso técnico. Submeter o protocolo ao comitê de ética quando há pessoas por trás dos dados, em vez de presumir dispensa. Minimizar a coleta ao que a pergunta exige, pseudonimizar identificadores e nunca reproduzir citações que permitam reidentificação. Limitar a taxa de requisições para não sobrecarregar o servidor da fonte, que é um terceiro afetado pela coleta. E documentar cada uma dessas decisões na seção de métodos, porque o que distingue a raspagem legítima da indefensável não é a ferramenta, é a justificativa registrada de que a fronteira entre o público e o coletável foi reconhecida e respeitada.

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável

Referências

Esta análise reflete a operação da Aria em Web Scraping e Coleta de Dados e IA Generativa Aplicada à Pesquisa.

Referências

Esta análise reflete a operação da Aria em Web Scraping e Coleta de Dados e IA Generativa Aplicada à Pesquisa.

Missing data não é detalhe técnico: o que pareceristas leem com lupa

Visualização publicável vs exploratória: dois objetos, duas regras

SEM em mediação múltipla: quando a regressão linear deixa de responder