A introdução de uma tese frequentemente abre com a frase “ainda há lacunas na literatura sobre X.” A frase é cara aos comitês de qualificação por uma razão precisa: ela é raramente sustentada por evidência empírica do próprio autor. A demonstração de que existe uma lacuna costuma vir de leitura subjetiva — o autor leu cinquenta papers e não viu o tema X tratado da forma Y que ele propõe. Para um banca composta por especialistas, esse argumento é frágil. Eles podem ter lido outros cinquenta papers e visto o tema X amplamente coberto.
Análise bibliométrica responde a esse problema com método. Em vez de afirmar a existência de uma lacuna, a bibliometria a demonstra empiricamente: quantos artigos foram publicados sobre o tema X em cada janela temporal, quais autores e instituições lideram a produção, quais clusters temáticos emergem na rede de co-citação, e o que não aparece nessas dimensões — que é, precisamente, a lacuna.
A genealogia que importa
A bibliometria foi formalizada por Alan Pritchard em 1969, no Journal of Documentation, como “a aplicação de métodos matemáticos e estatísticos a livros e outras mídias de comunicação.” A definição parece prosaica até considerar o que a antecedeu. Lotka (1926), em artigo seminal no Journal of the Washington Academy of Sciences, descreveu a distribuição inversa-quadrada da produtividade científica: a proporção de autores que produzem n artigos é aproximadamente 1/n² da proporção que produz apenas um. Bradford (1934) descreveu a lei do scatter de literatura — um pequeno núcleo de periódicos concentra a maioria dos artigos relevantes para um tema. Zipf (1949) descreveu a relação inversa entre rank e frequência em corpus de palavras. Garfield (1955), em Science, introduziu o índice de citação que tornaria a análise bibliométrica operacional em larga escala.
Esses anchors não são curiosidade histórica. Eles definem o que pode ser demonstrado empiricamente sobre a estrutura de qualquer corpus científico. Análise bibliométrica conduzida sem referência a essa genealogia é frequentemente exercício descritivo — listas de mais-citados, contagens de palavras-chave. Análise conduzida com a genealogia é argumento estrutural.
O que uma bibliometria séria entrega
Bibliometria séria não é contagem. É mapeamento estrutural com três entregáveis específicos. O primeiro é a curva temporal de produção: quantos artigos por ano no tema, indicando se o campo é jovem, maduro ou em declínio. Campo jovem com poucos artigos por ano admite contribuição original em mais ângulos; campo maduro com volume alto exige posicionamento mais preciso.
O segundo entregável é a rede de co-citação. Quando dois artigos são citados juntos em um terceiro, há uma aresta entre eles na rede. Clusters densos na rede correspondem a tradições intelectuais consolidadas no campo. Identificar os clusters permite ao autor posicionar a própria contribuição contra uma tradição específica em vez de contra a literatura inteira. É menos ambicioso e infinitamente mais defensável.
O terceiro entregável é a identificação dos autores e instituições dominantes via lei de Lotka aplicada ao corpus. A pirâmide de Lotka em um campo maduro tem dois ou três autores que respondem por uma fração desproporcional da produção. Não citar esses autores é vulnerabilidade óbvia em revisão por pares. Citar exige conhecer a obra deles, o que altera a leitura subsequente do candidato.
A entrega em um manuscrito real
Em um manuscrito empírico, a bibliometria não substitui a fundamentação teórica — entra como seção curta antes dela, tipicamente com dois a quatro parágrafos e uma ou duas figuras. A primeira figura é a curva temporal de produção; a segunda, quando justificada, é o mapa de rede de co-citação com clusters identificados. O texto que acompanha as figuras faz três coisas: identifica os clusters, posiciona a pesquisa em um deles, e justifica empiricamente por que a lacuna específica que o estudo aborda existe naquele cluster e não em outro.
A construção do corpus exige decisões metodológicas que precisam ser declaradas: base de dados utilizada (Scopus, Web of Science, ou ambas com tratamento de duplicatas), strings de busca exatas, filtros aplicados (tipo de documento, idioma, janela temporal), e número final de artigos analisados. Sem essas declarações, a bibliometria perde rastreabilidade e o argumento empírico se enfraquece.