Embeddings — Glossário Aria Research

Definição estendida

Embeddings são representações vetoriais densas de objetos discretos — palavras, sentenças, documentos, imagens, áudios, código — em espaço contínuo de dimensão fixa, tipicamente entre 256 e 4096. A premissa central, anterior aos modelos modernos, é a hipótese distribucional: significados emergem de padrões de coocorrência em contextos. Cada token $w$ é mapeado para um vetor $\mathbf{v}_w \in \mathbb{R}^d$ , e a similaridade semântica entre tokens é capturada pela proximidade vetorial — usualmente medida por similaridade do cosseno. A formalização contemporânea inicia-se com word2vec (Mikolov et al., 2013), que treinou embeddings por predição de contexto em escala. GloVe (Pennington et al., 2014) ofereceu alternativa baseada em fatoração de matriz de coocorrência. Embeddings contextuais — em que o vetor depende da frase em que a palavra aparece — emergiram com ELMo e tornaram-se padrão com BERT (Devlin et al., 2018). Hoje, embeddings gerados por modelos como Sentence-BERT, OpenAI text-embedding-3 e Cohere embed v3 são infraestrutura de quase toda aplicação prática de IA com texto.

Quando se aplica

Embeddings são apropriados sempre que o problema envolve similaridade semântica, recuperação por significado em vez de palavra-chave, agrupamento de itens conceitualmente próximos, ou features densas para modelos a jusante. Aplicações típicas incluem busca semântica em documentos, sistemas RAG (recuperação aumentada por geração), classificação por zero-shot ou few-shot, deduplicação de registros aproximada, clusterização de literatura científica e detecção de tópicos.

Quando NÃO se aplica

Não são apropriados para tarefas que demandam correspondência exata — busca por número de processo, código de produto, identificadores únicos — onde índices invertidos clássicos (BM25, Lucene) são mais precisos e baratos. Não substituem features estruturadas em problemas com sinal forte em variáveis tabulares — para classificação de risco com dados numéricos, gradient boosting tipicamente supera abordagens baseadas em embeddings textuais. Não funcionam bem com vocabulário fora da distribuição de treino sem ajuste — termos altamente especializados ou idiomas com pouca representação produzem vetores de baixa qualidade.

Aplicações por área

— Busca e recuperação: base de busca semântica em documentos, mecanismos de Q&A, RAG em literatura técnica. — Bibliometria e revisão sistemática: clusterização de papers, detecção de tópicos com BERTopic, deduplicação de citações. — Saúde: busca semântica em literatura biomédica, similaridade de prontuários para apoio à decisão. — Ciências sociais e humanidades digitais: análise de discurso em corpora grandes, mapeamento conceitual em coleções de texto.

Armadilhas comuns

A primeira armadilha é assumir que similaridade do cosseno alta implica equivalência semântica — embeddings capturam coocorrência distribucional, não significado pleno; antônimos frequentes em mesmos contextos podem ter vetores muito próximos. A segunda é usar modelo genérico em domínio especializado sem ajuste — embeddings OpenAI ou multilíngues genéricos têm desempenho inferior em jurisprudência, textos clínicos ou literatura científica especializada. A terceira é ignorar viés: embeddings refletem associações dos dados de treino, incluindo estereótipos raciais, de gênero e regionais documentados em literatura. A quarta é confiar em comparações entre modelos sem benchmark do próprio domínio — desempenho varia drasticamente entre tarefas. A quinta é negligenciar custo computacional: embeddings densos exigem armazenamento e indexação (FAISS, Qdrant, Weaviate), com custos não triviais em escala. A sexta é misturar embeddings de modelos diferentes em mesmo espaço — vetores não são comparáveis entre modelos.