BERT — Glossário Aria Research

Definição estendida

BERT (Bidirectional Encoder Representations from Transformers) é um modelo de linguagem pré-treinado proposto por Devlin et al. (2018) na Google AI. Sua inovação central é o pré-treinamento bidirecional via masked language modeling: durante o treino, 15% dos tokens de cada sentença são mascarados, e o modelo aprende a prevê-los com base no contexto à esquerda e à direita simultaneamente — superando limitações de modelos auto-regressivos prévios, que processavam apenas em uma direção. O modelo é construído sobre a arquitetura Transformer (Vaswani et al., 2017), usando apenas o componente de codificador. Após pré-treino em grandes corpora (Wikipedia + BookCorpus na versão original), BERT é ajustado para tarefas específicas — classificação de sentença, classificação de tokens, pares de sentenças, perguntas e respostas — com pequena cabeça adicional treinada nos dados da tarefa. Esse paradigma pré-treino + ajuste fino tornou-se padrão em PLN entre 2018 e 2022.

Quando se aplica

BERT e variantes (RoBERTa, DistilBERT, BERTimbau para português) continuam apropriados para tarefas de classificação e extração de informação em texto, especialmente quando há dados rotulados em quantidade modesta (centenas a milhares de exemplos) e necessidade de modelo eficiente em tempo de inferência. Também é a escolha padrão para tarefas como NER (reconhecimento de entidades), classificação de sentimento em domínio específico, similaridade de sentenças e resposta extrativa a perguntas. Modelos derivados como Sentence-BERT são padrão para gerar embeddings de sentenças usadas em busca semântica.

Quando NÃO se aplica

Não é a escolha apropriada para geração de texto livre — BERT é apenas codificador, não foi treinado para produzir continuações coerentes. Para geração, GPT e outros modelos auto-regressivos são adequados. Não é a melhor opção quando o problema requer raciocínio em cadeia ou seguimento de instruções complexas — LLMs ajustados por instrução (GPT-4, Claude, Llama) superam BERT nessas tarefas por margem substancial. Em domínios sem dados rotulados ou com vocabulário muito específico, BERT genérico apresenta degradação; nesses casos, domain-adaptive pretraining ou modelos específicos (BioBERT, SciBERT, LegalBERT) costumam ser preferíveis.

Aplicações por área

— Pesquisa em PLN acadêmica: análise de corpus, classificação de documentos, extração de relações. — Saúde: BioBERT, ClinicalBERT para extração de informação em prontuários e literatura biomédica. — Direito e ciências sociais: classificação de jurisprudência, extração de argumentos, análise de discurso parlamentar. — Bibliometria: classificação automática de artigos, detecção de tópicos, análise de citações.

Armadilhas comuns

A primeira armadilha é usar BERT pré-treinado em domínio genérico para tarefa em domínio especializado sem ajuste — performance é frequentemente inferior a modelos clássicos com features bem desenhadas. A segunda é ignorar custo computacional: BERT-base tem 110M de parâmetros e BERT-large 340M, com tempo de inferência alto sem GPU; alternativas destiladas (DistilBERT) ou modelos menores (TinyBERT) são preferíveis em produção. A terceira é tratar embeddings extraídos de BERT como universais — na realidade são contextuais, e a mesma palavra produz vetores diferentes em frases distintas. A quarta é assumir desempenho equivalente ao reportado em papers: benchmarks como GLUE saturam, mas tarefas reais com texto ruidoso, multi-idioma ou domínio raro mostram queda significativa. A quinta é não considerar limite de 512 tokens: documentos longos exigem estratégia de divisão (chunking) ou modelos como Longformer.