Dados e estatística

Web scraping em pesquisa acadêmica: público não é o mesmo que coletável

Que um dado esteja visível numa página aberta diz respeito ao acesso, não à permissão nem à ética. Web scraping força essa distinção: termos de uso, privacidade e risco de dano traçam a fronteira que a acessibilidade técnica ignora. Uma revisão de 367 estudos com dados públicos do Twitter mediu o problema: a maioria não relatou aprovação ética, e o consentimento informado foi tentado em zero deles.

Que um dado esteja visível numa página aberta é uma afirmação sobre acesso, não sobre permissão e muito menos sobre ética. Web scraping em pesquisa acadêmica vive exatamente nessa confusão: a facilidade de coletar automaticamente milhões de registros públicos faz parecer que o que é tecnicamente acessível é também livremente utilizável. Não é. A fronteira entre o dado público e o dado eticamente coletável é traçada por consentimento, termos de uso e risco de dano, e nenhum desses limites aparece no código que baixa a página. O parecerista que recebe um estudo baseado em raspagem pergunta, antes de qualquer resultado, como os dados foram obtidos e por que isso foi considerado legítimo.

O primeiro limite que a acessibilidade técnica ignora é contratual. Fiesler e colegas (2020)2 analisaram os termos de uso de mais de cem plataformas sociais e encontraram proibições de coleta automatizada frequentes, mas ambíguas, inconsistentes e sem contexto. O fato de uma página carregar no navegador não significa que o site autorize um robô a percorrê-la, e a violação de termos de uso já bastou para gerar litígio. O segundo limite é a expectativa de privacidade. Um usuário que publica num fórum sobre uma condição de saúde escreve para uma comunidade específica, não para um corpus de pesquisa indexado e arquivado indefinidamente. Tratar esse texto como dado livre ignora a integridade contextual da informação. O terceiro limite é o dano: reidentificação, exposição e a circulação de citações atribuíveis a pessoas que nunca souberam que participavam de um estudo.

Esses limites são conhecidos, mas mal observados, e isso foi medido. Taylor e Pagliari (2018)4 revisaram 156 estudos de saúde que usaram dados de mídia social e encontraram que apenas 50 mencionavam qualquer consideração ética, em geral apenas para afirmar que a aprovação havia sido obtida ou dispensada. O problema, portanto, não é teórico nem raro: é a prática corrente de tratar o dado público como permissão tácita. Takats e colegas (2022)1 quantificaram esse hábito numa revisão sistemática de 367 estudos que usaram dados publicamente acessíveis do Twitter.

Gráfico de barras com a parcela de 367 estudos que reportou cada salvaguarda ética: 36% anonimizou e parafraseou, 32% buscou aprovação de comitê, 30% discutiu ética, e 0% tentou consentimento informado.
Salvaguardas éticas reportadas em 367 estudos que usaram dados públicos do Twitter, na revisão de Takats e colegas (2022). Pouco mais de um terço anonimizou, buscou aprovação ética ou discutiu o tema; o consentimento informado do autor das mensagens foi tentado em zero estudos.

A leitura da figura é o argumento. Entre 367 estudos publicados, 36% anonimizaram e parafrasearam as mensagens, 32% buscaram aprovação de um comitê de ética, 30% sequer discutiram considerações éticas, e o consentimento informado dos autores das mensagens foi tentado em nenhum deles. A barra zerada não é um detalhe: é a confirmação de que, na prática, um campo inteiro tratou a disponibilidade pública como consentimento. O que essa lacuna produz quando levada ao extremo está documentado. Chiauzzi e Wicks (2019)5 relatam quatro casos de pesquisadores que rasparam uma comunidade de pacientes em violação dos termos de uso e da ética de pesquisa, com retratações e correções como desfecho. O dano não é hipotético, e a defesa de que o dado estava público não o evitou.

A consequência prática não é abandonar a raspagem, e sim conduzi-la de modo defensável. Mancosu e Vegetti (2020)3 mostram o caminho com um exemplo concreto: coletar apenas informação pública e pseudonimizar os identificadores dos usuários com uma função de hash unidirecional, mantendo os registros analisáveis sem expor as pessoas, em conformidade com a regulação de privacidade. Boegershausen e colegas (2022)6, revisando mais de trezentos artigos que usaram dados da web, propõem tratar as questões técnicas, legais e éticas em conjunto, e não como um apêndice, ao longo das três etapas da coleta: escolher a fonte, desenhar a coleta e extrair os dados. A validade do dado e a legitimidade da coleta são decididas nas mesmas decisões.

A confusão entre público e coletável se agrava porque o terreno legal é instável e dá falso conforto. Decisões judiciais sobre raspagem variam entre jurisdições e mudam com o tempo, e a restrição de acesso pelas próprias plataformas, depois do fim do acesso aberto às APIs, empurrou pesquisadores de volta à raspagem justamente quando as regras ficaram menos claras. Apoiar-se na frase de que o dado estava público é frágil em dois sentidos: não resolve a questão ética, que independe da legalidade, e nem sequer garante a legal, que depende de onde e quando o estudo é avaliado. A pergunta que sobrevive a essas oscilações não é se era possível coletar, mas se a coleta respeitou as pessoas e os sistemas do outro lado da requisição.

A regra operacional cabe numa sequência verificável antes da primeira requisição. Ler o robots.txt e os termos de uso da fonte e respeitar o que eles proíbem, porque a permissão contratual é distinta do acesso técnico. Submeter o protocolo ao comitê de ética quando há pessoas por trás dos dados, em vez de presumir dispensa. Minimizar a coleta ao que a pergunta exige, pseudonimizar identificadores e nunca reproduzir citações que permitam reidentificação. Limitar a taxa de requisições para não sobrecarregar o servidor da fonte, que é um terceiro afetado pela coleta. E documentar cada uma dessas decisões na seção de métodos, porque o que distingue a raspagem legítima da indefensável não é a ferramenta, é a justificativa registrada de que a fronteira entre o público e o coletável foi reconhecida e respeitada.

Referências

  1. Takats, C.; Kwan, A.; Wormer, R.; Goldman, D.; Jones, H. E.; Romero, D. (2022). Ethical and Methodological Considerations of Twitter Data for Public Health Research: Systematic Review https://doi.org/10.2196/40380
  2. Fiesler, C.; Beard, N.; Keegan, B. C. (2020). No Robots, Spiders, or Scrapers: Legal and Ethical Regulation of Data Collection Methods in Social Media Terms of Service https://doi.org/10.1609/icwsm.v14i1.7290
  3. Mancosu, M.; Vegetti, F. (2020). What You Can Scrape and What Is Right to Scrape: A Proposal for a Tool to Collect Public Facebook Data https://doi.org/10.1177/2056305120940703
  4. Taylor, J.; Pagliari, C. (2018). Mining social media data: How are research sponsors and researchers addressing the ethical challenges? https://doi.org/10.1177/1747016117738559
  5. Chiauzzi, E.; Wicks, P. (2019). Digital Trespass: Ethical and Terms-of-Use Violations by Researchers Accessing Data From an Online Patient Community https://doi.org/10.2196/11985
  6. Boegershausen, J.; Datta, H.; Borah, A.; Stephen, A. T. (2022). Fields of Gold: Scraping Web Data for Marketing Insights https://doi.org/10.1177/00222429221100750

Esta análise reflete a operação da Aria em Web Scraping e Coleta de Dados e IA Generativa Aplicada à Pesquisa.

Se o seu projeto está em um ponto onde esse tipo de leitura é útil, considere apresentar o manuscrito ou os dados para um diagnóstico técnico em até 48 horas úteis.

Solicitar orçamento