Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

Um embedding é uma impressão comprimida do texto que o treinou. Ao representar cada palavra como um vetor cuja posição resume com quais outras palavras ela costuma aparecer, o modelo aprende a cultura do corpus: suas associações úteis, seus estereótipos e também seus silêncios. Por isso a expressão pré-treinado não deve ser lida como sinônimo de neutro. Um modelo que chega pronto chega carregado das regularidades do texto de onde saiu, e essas regularidades incluem o modo como uma sociedade fala, ou deixa de falar, sobre seus grupos sub-representados. O parecerista que vê um estudo apoiado em embeddings pergunta, antes dos resultados, o que esse modelo aprendeu sobre as populações em questão.

A primeira coisa a estabelecer é que esse viés não é uma impressão, é uma quantidade. Caliskan e colegas (2017)² introduziram o teste de associação em embeddings e mostraram que modelos prontos reproduzem vieses humanos documentados, de associações banais a estereótipos raciais e de gênero, com tamanhos de efeito mensuráveis na mesma escala de um teste psicológico. Garg e colegas (2018)³ levaram a medição ao tempo, treinando embeddings sobre um século de texto e mostrando que as associações para mulheres e minorias étnicas acompanham as mudanças demográficas e ocupacionais reais. Charlesworth e colegas (2021)⁴ encontraram os mesmos estereótipos de gênero em corpora tão distintos quanto a fala de crianças e a mídia adulta, evidência de que o viés aprendido é uma propriedade estável da língua, não um acidente de um conjunto de dados.

Para populações sub-representadas, o problema tem duas faces. Uma é o estereótipo que o modelo codifica ativamente; a outra é a representação rala, o que ele simplesmente não aprendeu porque o corpus quase não falou daquele grupo. As duas falhas se compõem: onde há pouco texto, a representação é instável e fácil de dominar pelo estereótipo majoritário. Durrheim e colegas (2023)⁵ revisam como os embeddings entregam estimativas válidas e confiáveis de viés ao longo de dimensões bipolares, detectando preconceitos sutis que não são ditos abertamente, e é essa validade que permite tratar o problema como mensurável em vez de retórico. O que o modelo deixa de codificar sobre um grupo sub-representado é tão consequente quanto o que ele codifica.

Quanto disso é viés medido, e onde ele se concentra, foi quantificado recentemente. Gray e Wu (2025)¹ mediram escores SD-WEAT, uma variante do teste de associação, para modelos pré-treinados em benchmarks de saúde ligados a populações sensíveis.

Gráfico de barras agrupadas com escores SD-WEAT de viés em dois benchmarks de etnia: BioBERT marca 0,844 e 0,868, LegalBERT marca 0,348 e 0,663; maior é mais viés. — Escore de viés SD-WEAT em dois benchmarks de etnia, por modelo, na medição de Gray e Wu (2025). O modelo especializado em biomedicina (BioBERT) codifica associações mais fortes que o modelo jurídico (LegalBERT) nos dois benchmarks que cobrem populações sub-representadas.

A leitura da figura desfaz uma suposição comum. Espera-se que um modelo especializado num domínio técnico seja mais limpo, mais focado, menos contaminado por estereótipo social. O contrário aparece nos dados: nos benchmarks de etnia, o BioBERT, treinado em texto biomédico, marcou 0,844 e 0,868, acima do LegalBERT, com 0,348 e 0,663. A especialização não dilui o viés cultural; quando o corpus do domínio carrega as mesmas assimetrias da sociedade que o produziu, a especialização pode concentrá-lo justamente nos grupos que aparecem pouco. Escolher um modelo pré-treinado por causa do seu domínio não isenta o pesquisador de medir o que esse modelo aprendeu sobre as pessoas que o estudo vai tocar.

O que torna esse viés perigoso não é a sua presença no vetor, é a sua propagação. Um embedding raramente é o produto final; ele alimenta classificadores, sistemas de recuperação, modelos de triagem e geradores de texto, e cada um deles herda a associação que o vetor trouxe. Quando um modelo de triagem clínica usa representações que ligam certos grupos a certas condições com mais força do que a evidência justifica, o viés deixa de ser uma curiosidade de pesquisa e passa a moldar decisões. Garg e colegas (2018)³ já mostravam que a associação no embedding espelha a estrutura social do corpus; o problema é que o sistema a jusante trata essa associação como se fosse conhecimento, não como o resíduo histórico de um texto. Por isso medir o viés na fonte, antes que ele se dilua em camadas de modelo, é a única intervenção que ainda enxerga de onde ele veio.

A consequência prática não é abandonar embeddings, e sim auditá-los antes de confiar neles. Medir o viés por grupo com um teste de associação, em vez de presumir neutralidade pela origem técnica do modelo. Examinar a proveniência do corpus de treino, porque a sub-representação no texto vira sub-representação no vetor. Avaliar separadamente cada população relevante para o estudo, já que um escore agregado esconde o grupo que o modelo representa pior. Quando houver mitigação de viés, verificar que ela reduziu a associação medida em vez de apenas mascará-la, porque debiasing superficial costuma deslocar o viés sem removê-lo. E relatar essa auditoria na seção de métodos, com os escores por grupo, do mesmo modo que se relata qualquer outra propriedade do instrumento. Um embedding é um instrumento de medida que carrega a cultura de quem o escreveu; usá-lo sem medir essa carga é entregar ao leitor um resultado cuja parte mais sensível ficou sem inspeção.

Embeddings e viés cultural: o que modelos pré-treinados aprendem e esquecem

Referências

Esta análise reflete a operação da Aria em NLP e Mineração de Texto e Visão Computacional.

Referências

Esta análise reflete a operação da Aria em NLP e Mineração de Texto e Visão Computacional.

Detecção de objetos fora do ImageNet: quando o domínio sai do treino

IA generativa em revisão sistemática: ferramenta ou atalho?

Modelagem preditiva em ciências sociais: por que o AUC sozinho não basta