Análise bibliométrica como argumento empírico de tese

A introdução de uma tese frequentemente abre com a frase “ainda há lacunas na literatura sobre X.” A frase é cara aos comitês de qualificação por uma razão precisa: ela é raramente sustentada por evidência empírica do próprio autor. A demonstração de que existe uma lacuna costuma vir de leitura subjetiva — o autor leu cinquenta papers e não viu o tema X tratado da forma Y que ele propõe. Para um banca composta por especialistas, esse argumento é frágil. Eles podem ter lido outros cinquenta papers e visto o tema X amplamente coberto.

Análise bibliométrica responde a esse problema com método. Em vez de afirmar a existência de uma lacuna, a bibliometria a demonstra empiricamente: quantos artigos foram publicados sobre o tema X em cada janela temporal, quais autores e instituições lideram a produção, quais clusters temáticos emergem na rede de co-citação, e o que não aparece nessas dimensões — que é, precisamente, a lacuna.

A genealogia que importa

A bibliometria foi formalizada por Alan Pritchard em 1969, no Journal of Documentation, como “a aplicação de métodos matemáticos e estatísticos a livros e outras mídias de comunicação.” A definição parece prosaica até considerar o que a antecedeu. Lotka (1926), em artigo seminal no Journal of the Washington Academy of Sciences, descreveu a distribuição inversa-quadrada da produtividade científica: a proporção de autores que produzem n artigos é aproximadamente 1/n² da proporção que produz apenas um. Bradford (1934) descreveu a lei do scatter de literatura — um pequeno núcleo de periódicos concentra a maioria dos artigos relevantes para um tema. Zipf (1949) descreveu a relação inversa entre rank e frequência em corpus de palavras. Garfield (1955), em Science, introduziu o índice de citação que tornaria a análise bibliométrica operacional em larga escala.

Esses anchors não são curiosidade histórica. Eles definem o que pode ser demonstrado empiricamente sobre a estrutura de qualquer corpus científico. Análise bibliométrica conduzida sem referência a essa genealogia é frequentemente exercício descritivo — listas de mais-citados, contagens de palavras-chave. Análise conduzida com a genealogia é argumento estrutural.

Gráfico de barras mostrando distribuição de produtividade de autores em corpus científico típico seguindo lei de Lotka; 60% dos autores contribuem com apenas um artigo — Distribuição típica de produtividade de autores em corpus científico, seguindo a lei de Lotka (1926). A leitura crítica é o contraste entre o longo decay e a concentração no extremo direito. A categoria de cinco ou mais publicações, destacada, contém os autores cuja produção sistemática define a estrutura do campo — são as leituras canônicas que um manuscrito sério não pode ignorar. Padrão consistente com Souza, Kuniyoshi e Freitas (2024) em corpus ESG (1.574 autores, 699 artigos) e Hoang (2025) em revisão metodológica.

O que uma bibliometria séria entrega

Bibliometria séria não é contagem. É mapeamento estrutural com três entregáveis específicos. O primeiro é a curva temporal de produção: quantos artigos por ano no tema, indicando se o campo é jovem, maduro ou em declínio. Campo jovem com poucos artigos por ano admite contribuição original em mais ângulos; campo maduro com volume alto exige posicionamento mais preciso.

O segundo entregável é a rede de co-citação. Quando dois artigos são citados juntos em um terceiro, há uma aresta entre eles na rede. Clusters densos na rede correspondem a tradições intelectuais consolidadas no campo. Identificar os clusters permite ao autor posicionar a própria contribuição contra uma tradição específica em vez de contra a literatura inteira. É menos ambicioso e infinitamente mais defensável.

O terceiro entregável é a identificação dos autores e instituições dominantes via lei de Lotka aplicada ao corpus. A pirâmide de Lotka em um campo maduro tem dois ou três autores que respondem por uma fração desproporcional da produção. Não citar esses autores é vulnerabilidade óbvia em revisão por pares. Citar exige conhecer a obra deles, o que altera a leitura subsequente do candidato.

A entrega em um manuscrito real

Em um manuscrito empírico, a bibliometria não substitui a fundamentação teórica — entra como seção curta antes dela, tipicamente com dois a quatro parágrafos e uma ou duas figuras. A primeira figura é a curva temporal de produção; a segunda, quando justificada, é o mapa de rede de co-citação com clusters identificados. O texto que acompanha as figuras faz três coisas: identifica os clusters, posiciona a pesquisa em um deles, e justifica empiricamente por que a lacuna específica que o estudo aborda existe naquele cluster e não em outro.

A construção do corpus exige decisões metodológicas que precisam ser declaradas: base de dados utilizada (Scopus, Web of Science, ou ambas com tratamento de duplicatas), strings de busca exatas, filtros aplicados (tipo de documento, idioma, janela temporal), e número final de artigos analisados. Sem essas declarações, a bibliometria perde rastreabilidade e o argumento empírico se enfraquece.

Análise bibliométrica como argumento empírico de tese

A genealogia que importa

O que uma bibliometria séria entrega

A entrega em um manuscrito real

Referências

Esta análise reflete a operação da Aria em Análise Bibliométrica e Revisão e Reescrita.

A genealogia que importa

O que uma bibliometria séria entrega

A entrega em um manuscrito real

Referências

Esta análise reflete a operação da Aria em Análise Bibliométrica e Revisão e Reescrita.

Invariância de mensuração em instrumentos traduzidos

Modelagem multinível: quando MLM é obrigatório e quando OLS basta

P-valor sozinho não passa: o que pareceristas Q1 leem na seção de resultados