IA e machine learning

Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

Um embedding é uma impressão comprimida do texto que o treinou: aprende a cultura desse corpus, com seus estereótipos e seus silêncios. Pré-treinado não significa neutro. Para populações sub-representadas há duas falhas: o estereótipo codificado e a representação rala. E o viés é mensurável: num benchmark de saúde, um modelo biomédico codificou associações étnicas mais fortes que um jurídico.

Um embedding é uma impressão comprimida do texto que o treinou. Ao representar cada palavra como um vetor cuja posição resume com quais outras palavras ela costuma aparecer, o modelo aprende a cultura do corpus: suas associações úteis, seus estereótipos e também seus silêncios. Por isso a expressão pré-treinado não deve ser lida como sinônimo de neutro. Um modelo que chega pronto chega carregado das regularidades do texto de onde saiu, e essas regularidades incluem o modo como uma sociedade fala, ou deixa de falar, sobre seus grupos sub-representados. O parecerista que vê um estudo apoiado em embeddings pergunta, antes dos resultados, o que esse modelo aprendeu sobre as populações em questão.

A primeira coisa a estabelecer é que esse viés não é uma impressão, é uma quantidade. Caliskan e colegas (2017)2 introduziram o teste de associação em embeddings e mostraram que modelos prontos reproduzem vieses humanos documentados, de associações banais a estereótipos raciais e de gênero, com tamanhos de efeito mensuráveis na mesma escala de um teste psicológico. Garg e colegas (2018)3 levaram a medição ao tempo, treinando embeddings sobre um século de texto e mostrando que as associações para mulheres e minorias étnicas acompanham as mudanças demográficas e ocupacionais reais. Charlesworth e colegas (2021)4 encontraram os mesmos estereótipos de gênero em corpora tão distintos quanto a fala de crianças e a mídia adulta, evidência de que o viés aprendido é uma propriedade estável da língua, não um acidente de um conjunto de dados.

Para populações sub-representadas, o problema tem duas faces. Uma é o estereótipo que o modelo codifica ativamente; a outra é a representação rala, o que ele simplesmente não aprendeu porque o corpus quase não falou daquele grupo. As duas falhas se compõem: onde há pouco texto, a representação é instável e fácil de dominar pelo estereótipo majoritário. Durrheim e colegas (2023)5 revisam como os embeddings entregam estimativas válidas e confiáveis de viés ao longo de dimensões bipolares, detectando preconceitos sutis que não são ditos abertamente, e é essa validade que permite tratar o problema como mensurável em vez de retórico. O que o modelo deixa de codificar sobre um grupo sub-representado é tão consequente quanto o que ele codifica.

Quanto disso é viés medido, e onde ele se concentra, foi quantificado recentemente. Gray e Wu (2025)1 mediram escores SD-WEAT, uma variante do teste de associação, para modelos pré-treinados em benchmarks de saúde ligados a populações sensíveis.

Gráfico de barras agrupadas com escores SD-WEAT de viés em dois benchmarks de etnia: BioBERT marca 0,844 e 0,868, LegalBERT marca 0,348 e 0,663; maior é mais viés.
Escore de viés SD-WEAT em dois benchmarks de etnia, por modelo, na medição de Gray e Wu (2025). O modelo especializado em biomedicina (BioBERT) codifica associações mais fortes que o modelo jurídico (LegalBERT) nos dois benchmarks que cobrem populações sub-representadas.

A leitura da figura desfaz uma suposição comum. Espera-se que um modelo especializado num domínio técnico seja mais limpo, mais focado, menos contaminado por estereótipo social. O contrário aparece nos dados: nos benchmarks de etnia, o BioBERT, treinado em texto biomédico, marcou 0,844 e 0,868, acima do LegalBERT, com 0,348 e 0,663. A especialização não dilui o viés cultural; quando o corpus do domínio carrega as mesmas assimetrias da sociedade que o produziu, a especialização pode concentrá-lo justamente nos grupos que aparecem pouco. Escolher um modelo pré-treinado por causa do seu domínio não isenta o pesquisador de medir o que esse modelo aprendeu sobre as pessoas que o estudo vai tocar.

O que torna esse viés perigoso não é a sua presença no vetor, é a sua propagação. Um embedding raramente é o produto final; ele alimenta classificadores, sistemas de recuperação, modelos de triagem e geradores de texto, e cada um deles herda a associação que o vetor trouxe. Quando um modelo de triagem clínica usa representações que ligam certos grupos a certas condições com mais força do que a evidência justifica, o viés deixa de ser uma curiosidade de pesquisa e passa a moldar decisões. Garg e colegas (2018)3 já mostravam que a associação no embedding espelha a estrutura social do corpus; o problema é que o sistema a jusante trata essa associação como se fosse conhecimento, não como o resíduo histórico de um texto. Por isso medir o viés na fonte, antes que ele se dilua em camadas de modelo, é a única intervenção que ainda enxerga de onde ele veio.

A consequência prática não é abandonar embeddings, e sim auditá-los antes de confiar neles. Medir o viés por grupo com um teste de associação, em vez de presumir neutralidade pela origem técnica do modelo. Examinar a proveniência do corpus de treino, porque a sub-representação no texto vira sub-representação no vetor. Avaliar separadamente cada população relevante para o estudo, já que um escore agregado esconde o grupo que o modelo representa pior. Quando houver mitigação de viés, verificar que ela reduziu a associação medida em vez de apenas mascará-la, porque debiasing superficial costuma deslocar o viés sem removê-lo. E relatar essa auditoria na seção de métodos, com os escores por grupo, do mesmo modo que se relata qualquer outra propriedade do instrumento. Um embedding é um instrumento de medida que carrega a cultura de quem o escreveu; usá-lo sem medir essa carga é entregar ao leitor um resultado cuja parte mais sensível ficou sem inspeção.

Referências

  1. Gray, M.; Wu, L. (2025). Benchmarking bias in embeddings of healthcare AI models: using SD-WEAT for detection and measurement across sensitive populations https://doi.org/10.1186/s12911-025-03102-8
  2. Caliskan, A.; Bryson, J. J.; Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases https://doi.org/10.1126/science.aal4230
  3. Garg, N.; Schiebinger, L.; Jurafsky, D.; Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes https://doi.org/10.1073/pnas.1720347115
  4. Charlesworth, T. E. S.; Yang, V.; Mann, T. C.; Kurdi, B.; Banaji, M. R. (2021). Gender Stereotypes in Natural Language: Word Embeddings Show Robust Consistency Across Child and Adult Language Corpora of More Than 65 Million Words https://doi.org/10.1177/0956797620963619
  5. Durrheim, K.; Schuld, M.; Mafunda, M.; Mazibuko, S. (2023). Using word embeddings to investigate cultural biases https://doi.org/10.1111/bjso.12560

Esta análise reflete a operação da Aria em NLP e Mineração de Texto e Visão Computacional.

Se o seu projeto está em um ponto onde esse tipo de leitura é útil, considere apresentar o manuscrito ou os dados para um diagnóstico técnico em até 48 horas úteis.

Solicitar orçamento