LDA vs. BERTopic em corpus acadêmico

A escolha de método para modelagem de tópicos em corpus acadêmico passou, na década de 2020, por uma reconfiguração silenciosa. LDA, que era a referência operacional desde o paper seminal de Blei, Ng e Jordan (2003), passou a competir com uma abordagem fundamentalmente diferente: BERTopic, proposto por Grootendorst (2022). A maioria dos manuscritos que utilizam modelagem de tópicos não articula claramente por que escolheram um ou outro, o que costuma virar pedido de reanálise em revisão por pares.

A escolha não é estilística. LDA e BERTopic operam sobre representações diferentes do texto, fazem assunções diferentes sobre a estrutura dos tópicos, e produzem saídas que carregam significado diferente. Conhecer essa diferença é pré-requisito para defender a escolha em manuscritos com modelagem de tópicos como método central.

Como cada um opera

LDA é um modelo generativo probabilístico. A assunção subjacente é que cada documento é gerado a partir de uma mistura de tópicos, e cada tópico é uma distribuição de probabilidade sobre o vocabulário. O modelo estima essas distribuições maximizando a probabilidade dos dados observados via amostragem por Gibbs ou inferência variacional. A representação do texto é o saco-de-palavras: frequência de cada termo em cada documento, sem ordem, sem contexto, sem semântica.

BERTopic é uma pipeline em três etapas que opera sobre representações densas do texto. Documentos são convertidos em embeddings de alta dimensão por meio de um modelo pré-treinado tipo BERT (tipicamente Sentence-BERT). Esses embeddings são reduzidos dimensionalmente por UMAP. O resultado é clusterizado por HDBSCAN, e a representação textual de cada cluster é gerada por uma variação class-based de TF-IDF (c-TF-IDF). O resultado é um conjunto de clusters de documentos semanticamente próximos, com cada cluster acompanhado por termos representativos.

A diferença filosófica é central. LDA modela cada documento como mistura de tópicos — um paper sobre “deep learning aplicado a imagens médicas” pode ter 60% de probabilidade no tópico de deep learning, 30% no tópico de imagem médica, 10% em outros. BERTopic atribui cada documento a um único cluster — o mesmo paper estaria em um cluster específico cuja descrição textual capturaria “deep learning em imagem médica” como tópico unificado.

Quando cada um é a escolha certa

LDA permanece superior em três cenários específicos. O primeiro é quando coerência lexical baseada em co-ocorrência de termos é o critério interpretativo principal. Como LDA opera diretamente sobre frequências, métricas como Cv coherence baseadas em co-ocorrência de palavras tendem a favorecer LDA (Röder, Both e Hinneburg 2015). O segundo é quando o corpus é grande, vocabulário é estável e há valor analítico em modelar mistura de tópicos por documento. O terceiro é quando o número de tópicos é conhecido a priori ou facilmente estimável por critério como perplexidade ou coerência.

BERTopic é a escolha mais defensável em três cenários complementares. O primeiro é quando o corpus é heterogêneo em vocabulário mas semanticamente coerente — papers que tratam do mesmo fenômeno usando terminologia diferente serão agrupados juntos por similaridade semântica, algo que LDA não consegue. O segundo é quando documentos são curtos — abstracts, títulos, tweets acadêmicos — onde o saco-de-palavras de LDA tem pouca informação por documento. O terceiro é quando interpretabilidade dos clusters via termos representativos importa mais do que a probabilidade explícita de cada documento pertencer a cada tópico.

Gráfico de barras comparando perfis qualitativos de LDA e BERTopic em três dimensões: coerência lexical, semântica e robustez em corpora curtos — Perfis comparativos qualitativos de LDA e BERTopic em três dimensões avaliativas relevantes para corpus acadêmico. Baseado em comparações documentadas em Ma e colegas (2025) sobre 1.837 abstracts PubMed relativos a riscos cardiovasculares opioides em mulheres, e em Babalola, Ojokoh e Boyinbode (2024) sobre headlines de notícias. A coerência lexical baseada em co-ocorrência tende a favorecer LDA; coerência semântica e clustering de documentos curtos tendem a favorecer BERTopic. A escolha entre eles depende da dimensão relevante para o objetivo analítico.

A trincheira da avaliação

A coerência é a métrica mais usada para comparar modelos de tópicos. O problema é que existem várias coerências, e elas medem coisas diferentes. Cv mede coerência de termos com base em janelas deslizantes de co-ocorrência. UMass mede coerência via probabilidade condicional empírica. NPMI mede informação mútua normalizada. Em comparações documentadas, LDA frequentemente vence em Cv enquanto BERTopic vence em UMass e NPMI no mesmo corpus — não porque um seja melhor, mas porque as métricas avaliam aspectos diferentes do que constitui “coerência.”

A consequência operacional para um manuscrito é que comparar LDA e BERTopic via uma única métrica é insuficiente. A comparação séria reporta múltiplas coerências, reporta também avaliação humana em subamostra (anotação por especialistas de domínio sobre relevância e interpretabilidade dos tópicos extraídos), e justifica qual critério prevalece para o objetivo analítico.

A regra que reduz a escolha à prática

A regra operacional que funciona para corpora acadêmicos típicos é: se o objetivo é descrever a distribuição temática de um corpus extenso de full-text com vocabulário disciplinar estável, comece por LDA e avalie Cv. Se o objetivo é agrupar abstracts curtos vindos de bases heterogêneas, ou explorar a estrutura semântica de um corpus interdisciplinar, comece por BERTopic e avalie via UMass mais inspeção humana. Em manuscritos que justificam o uso de modelagem como método central, rodar os dois e reportar as duas saídas é o caminho que sustenta a discussão metodológica em revisão por pares.

LDA vs. BERTopic em corpus acadêmico

Como cada um opera

Quando cada um é a escolha certa

A trincheira da avaliação

A regra que reduz a escolha à prática

Referências

Esta análise reflete a operação da Aria em NLP e Mineração de Texto e Pipeline Completo de Data Science.

Como cada um opera

Quando cada um é a escolha certa

A trincheira da avaliação

A regra que reduz a escolha à prática

Referências

Esta análise reflete a operação da Aria em NLP e Mineração de Texto e Pipeline Completo de Data Science.

Embeddings semânticos para triagem em revisão sistemática

AUC 0,95 não publica em Q1: o que pareceristas leem em manuscritos de visão computacional médica