Glossário · 112 verbetes

Vocabulário.
Da pesquisa contemporânea.

Glossário técnico bilíngue de termos centrais à pesquisa acadêmica contemporânea, com foco em escrita, dados, estatística e métodos computacionais. Cada verbete inclui contexto de aplicação, limites de uso e armadilhas frequentes.

Por categoria

A–Z

Acordos transformativos (read-and-publish) Contrato entre uma instituição e uma editora que funde, em pagamento único, o custo de assinatura e o de publicação em acesso aberto (APC). Nos formatos read-and-publish e publish-and-read, desloca a despesa da leitura para a autoria.

Agradecimentos (acknowledgments) Seção do manuscrito que reconhece contribuições não suficientes para autoria ICMJE: financiamento, infraestrutura, suporte técnico, revisão crítica, prestação de serviço. Forma padrão de declarar contribuições substantivas fora dos quatro critérios de autoria.

Ajuste fino Adaptação de um modelo pré-treinado a uma tarefa ou domínio específico via treinamento adicional sobre dados rotulados menores. Padrão dominante em PLN entre 2018 e 2022, ainda relevante para BERT e variantes especializadas em domínios técnicos.

Alfa de Cronbach Coeficiente clássico de consistência interna para escalas e instrumentos, proposto por Cronbach em 1951. Apesar do uso massivo em psicometria, hoje é criticado por pressupostos restritivos — alternativas como ômega de McDonald são preferidas.

Altmetria Conjunto de métricas alternativas que medem a atenção recebida por uma pesquisa fora do circuito de citação: menções em redes sociais, notícias, blogs, documentos de política pública e Mendeley. O indicador mais difundido é o Altmetric Attention Score (AAS).

Alucinação Geração, por um modelo de linguagem, de conteúdo fluente e plausível mas factualmente incorreto ou não sustentado pela fonte. Organiza-se em dois eixos: intrínseca vs extrínseca e factualidade vs fidelidade ao material fornecido.

Análise bibliométrica Mapeamento quantitativo da produção científica de um campo via metadados de artigos: redes de coautoria, co-citação, evolução temporal, fronts emergentes. Hoje usa Scopus, Web of Science e ferramentas como VOSviewer e Bibliometrix.

Análise cienciométrica Estudo quantitativo da ciência como sistema: produção, colaboração, citações, impacto, dinâmica de campos. Difere da bibliometria por escopo mais amplo (políticas, indicadores nacionais). Métodos: análise de redes, mineração textual, análise temporal.

Análise de cluster Família de métodos não-supervisionados que agrupa observações por similaridade. Algoritmos clássicos: k-means (MacQueen, 1967), agrupamento hierárquico, DBSCAN. Validação por silhouette (Rousseeuw, 1987), estabilidade e interpretabilidade.

Análise de redes Família de métodos para estudar relações entre entidades representadas como nós e arestas. Métricas centrais: centralidade (grau, betweenness, eigenvector), densidade, modularidade, detecção de comunidades. Wasserman e Faust (1994) é a referência clássica.

Análise de sentimento Subárea de NLP que classifica polaridade afetiva (positiva, negativa, neutra) ou identifica emoções específicas em texto. Abordagens evoluíram de léxicos manuais a classificadores supervisionados a modelos baseados em transformers. Pang e Lee (2008) consolidaram a área.

Análise de sobrevivência Família de métodos para tempo até evento (morte, recidiva, falha) com tratamento explícito de dados censurados. Estimador Kaplan-Meier (1958) para função de sobrevivência; modelo de Cox (1972) para regressão de hazard ratios.

Análise fatorial confirmatória (CFA) Técnica de modelagem que testa se uma estrutura fatorial hipotetizada *a priori* se ajusta aos dados observados. Padrão psicométrico para validar instrumentos de medida com escalas e itens; estabelecida por Jöreskog em 1969 e implementada hoje em lavaan, Mplus e AMOS.

Análise fatorial exploratória (EFA) Técnica multivariada de redução de dados que identifica fatores latentes subjacentes a um conjunto de variáveis observadas, sem hipótese a priori sobre a estrutura. Tipicamente precede CFA na validação de instrumentos de mensuração.

Anotação humana e inter-annotator agreement Processo de rotulagem manual de dados (texto, imagem, áudio) por anotadores humanos, base de datasets supervisionados em ML. Concordância entre anotadores (IAA) é medida via kappa de Cohen (1960), alpha de Krippendorff. Critério de qualidade essencial.

ANOVA Análise de variância (Analysis of Variance): técnica estatística clássica para comparar médias entre três ou mais grupos. Estabelecida por Fisher em 1925 e fundação dos delineamentos experimentais em ciências biomédicas, agrárias e comportamentais.

APC (Article Processing Charge) Taxa cobrada por periódicos OA gold ou hybrid para processar e publicar um artigo aceito. Varia tipicamente de US$ 500 a US$ 12.000 dependendo de prestígio do periódico. Pode ser paga por autor, instituição, agência de fomento ou waiver.

Aprendizado por reforço Terceiro paradigma do aprendizado de maquina: um agente aprende por interacao com um ambiente, escolhendo acoes e maximizando a recompensa acumulada ao longo do tempo. Formalizado pelo processo de decisao de Markov; combinado com redes profundas, e o RL profundo.

Aprendizado zero-shot e few-shot Regimes em que um modelo resolve uma tarefa sem nenhum exemplo rotulado da classe-alvo (zero-shot) ou com pouquissimos (few-shot). Nos modelos de linguagem, tomam a forma de aprendizado em contexto, com a tarefa especificada no proprio prompt.

Arquitetura Transformer Arquitetura de rede neural baseada exclusivamente em mecanismos de atenção, proposta por Vaswani et al. em 2017. Substituiu redes recorrentes em quase toda tarefa de PLN e tornou-se a base estrutural de BERT, GPT, Claude, Gemini e da geração atual de modelos de linguagem.

AUC-ROC Área sob a curva ROC (Receiver Operating Characteristic) — métrica de discriminação de classificadores binários que integra performance em todos os limiares de decisão. Hanley e McNeil (1982) formalizaram interpretação probabilística. Varia de 0,5 (aleatório) a 1,0 (perfeito).

Avaliação de risco de viés Exame estruturado de quanto o desenho e a conducao de um estudo podem distorcer seus resultados, feito por dominios e por estudo. RoB 2 para ensaios randomizados, ROBINS-I para estudos nao randomizados de intervencao.