BERTopic — Glossário Aria Research

Definição estendida

BERTopic é algoritmo moderno de modelagem de tópicos que combina representações neurais densas com técnicas clássicas de clustering e ranking de termos. Pipeline padrão em quatro etapas: (1) Embedding — documentos são convertidos em vetores densos via Sentence-Transformers ou modelos compatíveis (paraphrase-multilingual-MiniLM-L12-v2 para multilingual, all-MiniLM-L6-v2 para inglês); (2) Redução de dimensionalidade — UMAP reduz embeddings de centenas de dimensões para 5-10 dimensões preservando estrutura local; (3) Clustering — HDBSCAN agrupa embeddings reduzidos em clusters de densidade variável, com tratamento explícito de outliers (documentos sem cluster claro); (4) Ranking de termos — c-TF-IDF (class-based TF-IDF) calcula importância de cada palavra por cluster, comparando frequência local à global. Grootendorst (2022, arXiv 2203.05794) consolidou o framework; pacote Python bertopic é implementação dominante. Egger e Yu (2022, Frontiers in Sociology) compararam BERTopic com LDA, NMF e Top2Vec em corpora de tweets, mostrando que BERTopic frequentemente supera em coerência semântica medida por automatic evaluation, especialmente em corpora pequenos a médios. Vantagens sobre LDA: contextualidade dos embeddings (mesmo termo em contextos diferentes recebe representações distintas), modularidade (cada etapa pode ser substituída), suporte multilingual nativo, modelos especializados (BERTopic guidance, BERTopic class-based, BERTopic dynamic).

Quando se aplica

BERTopic aplica-se em modelagem de tópicos em corpora pequenos e médios (centenas a dezenas de milhares de documentos) onde LDA tradicional sofre por estatística insuficiente. Aplica-se em corpora multilingual com modelos pré-treinados como paraphrase-multilingual-MiniLM. Aplica-se em corpora com vocabulário moderno (gírias, neologismos, termos técnicos) que LDA não captura bem. Aplica-se em corpora com documentos curtos (tweets, comentários, descrições de produto) onde bag-of-words clássica perde contexto. Aplica-se em pipelines de exploratory analysis com necessidade de visualização interativa: BERTopic integra com UMAP 2D para mapas de tópicos. Aplica-se em pesquisas em ciências sociais computacionais, mídia digital, humanidades digitais com corpora contemporâneos.

Quando NÃO se aplica

Não se aplica em corpora muito grandes (milhões de documentos) sem ajuste: embedding e UMAP/HDBSCAN escalam com $n$ ; alternativas escaláveis ou amostragem são necessárias. Não se aplica em corpora muito antigos onde modelos pré-treinados modernos não cobrem o vocabulário (textos do século XVIII, registros históricos em ortografia obsoleta) — fine-tuning ou modelos específicos podem ser necessários. Não se aplica como substituto de LDA quando reprodutibilidade entre estudos é crítica: LDA tem padronização mais consolidada na literatura bibliométrica. Não se aplica em problemas onde tópicos pré-definidos existem: classificação supervisionada é apropriada. Em domínios muito especializados (medicina técnica, jurisprudência), modelos pré-treinados gerais podem ser inadequados — fine-tuning em domínio é necessário.

Aplicações por área

— Análise de mídia social: clustering temático em Twitter, Reddit, comentários de YouTube — Egger & Yu (2022) é exemplo canônico. — Bibliometria moderna: clustering temático em corpora científicos, alternativa a LDA tradicional; integração com VOSviewer. — Customer experience: análise de reviews, feedback de clientes, transcrições de call center. — Humanidades digitais: análise de corpora literários e históricos contemporâneos.

Armadilhas comuns

A primeira armadilha é tratar BERTopic como caixa-preta: cada uma das quatro etapas (embedding, UMAP, HDBSCAN, c-TF-IDF) tem hiperparâmetros que afetam resultados; experimentação documentada é necessária. A segunda é não comparar com LDA como baseline: em alguns corpora, LDA tem performance equivalente ou superior; reportar comparação dá rigor. A terceira é interpretar tópicos sem validação humana: BERTopic produz clusters estatísticos; coerência percebida exige validação. A quarta é assumir que aumento de modelo de embedding (BERT-large vs. MiniLM) sempre melhora — em prática, MiniLMs são frequentemente suficientes e muito mais rápidos. A quinta é não documentar versão exata do modelo de embedding e seed de UMAP/HDBSCAN: reprodutibilidade exige especificação completa.