Glossário · 112 verbetes
Vocabulário.
Da pesquisa contemporânea.
Glossário técnico bilíngue de termos centrais à pesquisa acadêmica contemporânea, com foco em escrita, dados, estatística e métodos computacionais. Cada verbete inclui contexto de aplicação, limites de uso e armadilhas frequentes.
Verbetes em produção. Volte em breve.
Acordos transformativos (read-and-publish) Contrato entre uma instituição e uma editora que funde, em pagamento único, o custo de assinatura e o de publicação em acesso aberto (APC). Nos formatos read-and-publish e publish-and-read, desloca a despesa da leitura para a autoria.
Escrita Agradecimentos (acknowledgments) Seção do manuscrito que reconhece contribuições não suficientes para autoria ICMJE: financiamento, infraestrutura, suporte técnico, revisão crítica, prestação de serviço. Forma padrão de declarar contribuições substantivas fora dos quatro critérios de autoria.
Escrita Ajuste fino Adaptação de um modelo pré-treinado a uma tarefa ou domínio específico via treinamento adicional sobre dados rotulados menores. Padrão dominante em PLN entre 2018 e 2022, ainda relevante para BERT e variantes especializadas em domínios técnicos.
IA/ML Alfa de Cronbach Coeficiente clássico de consistência interna para escalas e instrumentos, proposto por Cronbach em 1951. Apesar do uso massivo em psicometria, hoje é criticado por pressupostos restritivos — alternativas como ômega de McDonald são preferidas.
Estatística Altmetria Conjunto de métricas alternativas que medem a atenção recebida por uma pesquisa fora do circuito de citação: menções em redes sociais, notícias, blogs, documentos de política pública e Mendeley. O indicador mais difundido é o Altmetric Attention Score (AAS).
Escrita Alucinação Geração, por um modelo de linguagem, de conteúdo fluente e plausível mas factualmente incorreto ou não sustentado pela fonte. Organiza-se em dois eixos: intrínseca vs extrínseca e factualidade vs fidelidade ao material fornecido.
IA/ML Análise bibliométrica Mapeamento quantitativo da produção científica de um campo via metadados de artigos: redes de coautoria, co-citação, evolução temporal, fronts emergentes. Hoje usa Scopus, Web of Science e ferramentas como VOSviewer e Bibliometrix.
Estatística Análise cienciométrica Estudo quantitativo da ciência como sistema: produção, colaboração, citações, impacto, dinâmica de campos. Difere da bibliometria por escopo mais amplo (políticas, indicadores nacionais). Métodos: análise de redes, mineração textual, análise temporal.
Transversal Análise de cluster Família de métodos não-supervisionados que agrupa observações por similaridade. Algoritmos clássicos: k-means (MacQueen, 1967), agrupamento hierárquico, DBSCAN. Validação por silhouette (Rousseeuw, 1987), estabilidade e interpretabilidade.
Estatística Análise de redes Família de métodos para estudar relações entre entidades representadas como nós e arestas. Métricas centrais: centralidade (grau, betweenness, eigenvector), densidade, modularidade, detecção de comunidades. Wasserman e Faust (1994) é a referência clássica.
Estatística Análise de sentimento Subárea de NLP que classifica polaridade afetiva (positiva, negativa, neutra) ou identifica emoções específicas em texto. Abordagens evoluíram de léxicos manuais a classificadores supervisionados a modelos baseados em transformers. Pang e Lee (2008) consolidaram a área.
IA/ML Análise de sobrevivência Família de métodos para tempo até evento (morte, recidiva, falha) com tratamento explícito de dados censurados. Estimador Kaplan-Meier (1958) para função de sobrevivência; modelo de Cox (1972) para regressão de hazard ratios.
Estatística Análise fatorial confirmatória (CFA) Técnica de modelagem que testa se uma estrutura fatorial hipotetizada *a priori* se ajusta aos dados observados. Padrão psicométrico para validar instrumentos de medida com escalas e itens; estabelecida por Jöreskog em 1969 e implementada hoje em lavaan, Mplus e AMOS.
Estatística Análise fatorial exploratória (EFA) Técnica multivariada de redução de dados que identifica fatores latentes subjacentes a um conjunto de variáveis observadas, sem hipótese a priori sobre a estrutura. Tipicamente precede CFA na validação de instrumentos de mensuração.
Estatística Anotação humana e inter-annotator agreement Processo de rotulagem manual de dados (texto, imagem, áudio) por anotadores humanos, base de datasets supervisionados em ML. Concordância entre anotadores (IAA) é medida via kappa de Cohen (1960), alpha de Krippendorff. Critério de qualidade essencial.
IA/ML ANOVA Análise de variância (Analysis of Variance): técnica estatística clássica para comparar médias entre três ou mais grupos. Estabelecida por Fisher em 1925 e fundação dos delineamentos experimentais em ciências biomédicas, agrárias e comportamentais.
Estatística APC (Article Processing Charge) Taxa cobrada por periódicos OA gold ou hybrid para processar e publicar um artigo aceito. Varia tipicamente de US$ 500 a US$ 12.000 dependendo de prestígio do periódico. Pode ser paga por autor, instituição, agência de fomento ou waiver.
Escrita Aprendizado por reforço Terceiro paradigma do aprendizado de maquina: um agente aprende por interacao com um ambiente, escolhendo acoes e maximizando a recompensa acumulada ao longo do tempo. Formalizado pelo processo de decisao de Markov; combinado com redes profundas, e o RL profundo.
IA/ML Aprendizado zero-shot e few-shot Regimes em que um modelo resolve uma tarefa sem nenhum exemplo rotulado da classe-alvo (zero-shot) ou com pouquissimos (few-shot). Nos modelos de linguagem, tomam a forma de aprendizado em contexto, com a tarefa especificada no proprio prompt.
IA/ML Arquitetura Transformer Arquitetura de rede neural baseada exclusivamente em mecanismos de atenção, proposta por Vaswani et al. em 2017. Substituiu redes recorrentes em quase toda tarefa de PLN e tornou-se a base estrutural de BERT, GPT, Claude, Gemini e da geração atual de modelos de linguagem.
IA/ML AUC-ROC Área sob a curva ROC (Receiver Operating Characteristic) — métrica de discriminação de classificadores binários que integra performance em todos os limiares de decisão. Hanley e McNeil (1982) formalizaram interpretação probabilística. Varia de 0,5 (aleatório) a 1,0 (perfeito).
IA/ML Avaliação de risco de viés Exame estruturado de quanto o desenho e a conducao de um estudo podem distorcer seus resultados, feito por dominios e por estudo. RoB 2 para ensaios randomizados, ROBINS-I para estudos nao randomizados de intervencao.
Transversal BERT Modelo de linguagem pré-treinado baseado em arquitetura Transformer, desenvolvido pelo Google em 2018. Treinado por *masked language modeling*, BERT estabeleceu o paradigma pré-treino + ajuste fino que dominou processamento de linguagem natural até a era dos LLMs generativos.
IA/ML BERTopic Algoritmo moderno de modelagem de tópicos que combina embeddings contextuais (BERT), redução de dimensionalidade (UMAP), clustering (HDBSCAN) e c-TF-IDF. Grootendorst (2022) consolidou. Costuma superar LDA em coerência semântica em corpora pequenos a médios.
IA/ML Bootstrap Família de métodos de reamostragem com reposição que estima distribuição amostral de um estimador a partir de uma única amostra. Proposto por Efron (1979). Permite IC e teste de hipótese sem suposição paramétrica de normalidade.
Estatística Carta de apresentação (cover letter) Documento curto que acompanha a submissão de manuscrito ao periódico, dirigido ao editor, articulando relevância do trabalho, fit com escopo da revista, e declarações editoriais (originalidade, ausência de submissão paralela). Influencia a triagem editorial inicial.
Escrita Ciência aberta Conceito guarda-chuva que reune as praticas voltadas a tornar o processo e os produtos da pesquisa transparentes, acessiveis e reutilizaveis em cada etapa: acesso aberto, dados FAIR, pre-registro, codigo aberto, revisao aberta e reprodutibilidade.
Transversal CiteScore Métrica bibliométrica lançada pela Elsevier em dezembro de 2016, baseada em dados do Scopus. Calcula citações recebidas em um ano por documentos publicados nos quatro anos anteriores. Aberta, gratuita e cobre mais periódicos que o JIF.
Escrita CLIP (Contrastive Language-Image Pre-training) Modelo multimodal pré-treinado por OpenAI que aprende representações alinhadas de imagens e texto via aprendizado contrastivo em 400M pares imagem-legenda da web. Radford et al. (2021). Habilita zero-shot classification, image search, base de modelos generativos visuais.
IA/ML Comitê de ética em pesquisa Órgão institucional independente que avalia eticamente projetos de pesquisa com seres humanos. CEP/CONEP no Brasil, IRB nos EUA, REC no Reino Unido. Bases: Helsinque (1964), Belmont Report (1979), princípios de Beauchamp e Childress.
Transversal Conflito de interesses Situação em que interesses secundários (financeiros, pessoais, profissionais) podem indevidamente influenciar julgamento sobre interesse primário (rigor da pesquisa). Declaração obrigatória em manuscritos via formulário ICMJE. Reportar não elimina; transparência é a defesa.
Escrita Controle de versão para pesquisa Registro sistematico das mudancas em arquivos ao longo do tempo, guardando quem alterou o que e quando, com recuperacao de qualquer estado anterior. O Git e a ferramenta padrao; aplica a reprodutibilidade a pratica computacional da pesquisa.
Transversal COPE (Committee on Publication Ethics) Organização internacional sem fins lucrativos fundada em 1997 que estabelece padrões de ética editorial. Mantém Core Practices, Code of Conduct e fluxogramas para má conduta. Mais de 13.000 periódicos e editoras membros. Referência operacional em integridade publicacional.
Escrita Dados ausentes e imputação múltipla Tratamento de valores faltantes em dados de pesquisa. Mecanismos: MCAR, MAR, MNAR. Imputação múltipla (Rubin, 1987) gera m datasets completos via amostragem da distribuição posterior, combinando estimativas via regras de Rubin para inferência válida.
Estatística Dados sensíveis em pesquisa Categorias de dados que requerem proteções extras: saúde, dados genéticos, orientação sexual, religião, situação financeira, geolocalização. Reguladas por LGPD (Brasil), GDPR (UE), HIPAA (EUA). Anonimização não é solução final — re-identificação é risco crescente.
Transversal Dados sintéticos Dados gerados artificialmente que reproduzem as propriedades estatisticas de um conjunto real sem expor os registros originais. A qualidade e avaliada em tres dimensoes em tensao: fidelidade, utilidade e privacidade.
IA/ML Declaração de disponibilidade de dados Seção formal de um artigo que informa se e como os dados subjacentes podem ser acessados: repositório com identificador persistente, material suplementar, sob solicitação ou indisponíveis por razão ética ou legal. Operacionaliza os princípios FAIR no nível do artigo.
Escrita Desbalanceamento de classes Situacao em que as categorias de um problema de classificacao nao estao igualmente representadas, com uma classe majoritaria dominando a minoritaria, em geral a de interesse. Tratado por reamostragem (SMOTE), custo e escolha de metrica adequada.
IA/ML Diretrizes de reporte Listas de verificacao padronizadas que especificam o minimo que um artigo de dado desenho deve relatar para ser avaliado e reproduzido. CONSORT para ensaios, STROBE para observacionais, PRISMA para revisoes; catalogadas pela rede EQUATOR.
Transversal Divisão treino/validação/teste Particionamento de um conjunto de dados em três subconjuntos disjuntos para machine learning: treino (ajuste de parâmetros), validação (seleção de hiperparâmetros) e teste (avaliação final imparcial). Padrão metodológico para evitar contaminação.
IA/ML DOI Identificador persistente para objetos digitais, definido pela ISO 26324 e administrado pela International DOI Foundation. Padrão de fato em comunicação acadêmica para citação estável de artigos, datasets, capítulos e outras saídas de pesquisa.
Transversal Embeddings Representações vetoriais densas de tokens — palavras, sentenças, documentos, imagens — em espaço contínuo de dimensão fixa. Formalizadas em PLN por word2vec (Mikolov, 2013); hoje base de busca semântica, RAG e da maioria das aplicações práticas de IA com texto.
IA/ML Engenharia de features Conjunto de práticas para transformar dados brutos em features informativas para modelos de ML: codificação, normalização, criação de features derivadas, seleção, redução. Domingos (2012) articulou como variável central da performance prática em ML.
IA/ML Errata e corrigenda Instrumentos editoriais para corrigir erros em artigo publicado, preservando os achados. Errata: erro do periódico (composição, figura, tipografia). Corrigenda: erro do autor (cálculo, atribuição, dado). Distintos da retratação, que remove confiabilidade integral.
Escrita Estratificação Q1/Q2/Q3/Q4 Classificação de periódicos em quatro quartis (Q1 a Q4) por área temática, baseada em métrica bibliométrica (JIF, SJR ou CiteScore). Q1 reúne os 25% mais bem ranqueados da área; Q4 os 25% mais baixos. Critério editorial e de avaliação dominante.
Escrita Fairness algorítmica Subárea de ML que estuda viés e discriminação em sistemas algorítmicos, com critérios formais (parity demográfica, igualdade de oportunidades, calibração) frequentemente em tensão matemática entre si. Barocas, Hardt e Narayanan (2019) consolidaram a referência.
IA/ML Fator de impacto Razão entre citações recebidas e itens citáveis publicados nos dois anos anteriores em um periódico — métrica bibliométrica criada por Eugene Garfield em 1955 e publicada anualmente pelo JCR da Clarivate. Reconhecida pelo uso e pela contestação (DORA 2012, CoARA 2022).
Escrita Fine-tuning vs prompt engineering Comparação aplicada entre dois paradigmas de adaptação de LLMs: fine-tuning (atualização de pesos com dados específicos) e prompt engineering (design de instruções sem modificar o modelo). Trade-off entre custo, controle, latência e generalização.
IA/ML GRADE Sistema para classificar a certeza de um corpo de evidencias (alta, moderada, baixa, muito baixa) e a forca de uma recomendacao, aplicado por desfecho e nao a estudo isolado. Separa o quanto se confia no efeito do quanto a recomendacao e forte.
Transversal Gradient boosting Tecnica de conjunto que soma muitas arvores rasas treinadas em sequencia, cada uma ajustada para corrigir os erros do conjunto anterior aproximando o gradiente negativo da perda. Padrao de fato em dados tabulares via XGBoost e LightGBM.
IA/ML ICMJE International Committee of Medical Journal Editors. Comitê internacional que estabelece convenções editoriais para autoria, conflitos de interesse, revisão por pares e integridade na produção científica em ciências biomédicas e da saúde, com adoção por extensão em outras áreas.
Escrita Indexação (Scopus, Web of Science, DOAJ) Inclusão de um periódico em base bibliográfica que cataloga e torna seus artigos pesquisáveis. Web of Science e Scopus são bases seletivas de citação; o DOAJ certifica acesso aberto. Indexar define visibilidade e descoberta, não a qualidade do artigo.
Escrita Índice-h Métrica bibliométrica proposta por Jorge Hirsch em 2005 que combina produtividade e impacto: pesquisador tem h-index igual a h se publicou h artigos com ao menos h citações cada. Largamente usado e largamente contestado em métodos quantitativos de avaliação.
Escrita Intervalo de confiança Faixa de valores construída a partir de dados amostrais que, em uso repetido, contém o parâmetro populacional verdadeiro com probabilidade igual ao nível de confiança nominal (tipicamente 95%). Formalizado por Neyman em 1937.
Estatística LIME Metodo de explicabilidade local e agnostico ao modelo: para explicar uma previsao individual de uma caixa-preta, ajusta um modelo simples e interpretavel na vizinhanca daquele caso, a partir de perturbacoes ponderadas por proximidade.
IA/ML Literatura cinzenta Produtos de pesquisa difundidos fora dos canais comerciais e do circuito de periodicos revisados: teses, relatorios, atas, documentos de governo, working papers e preprints. Importante em revisoes para reduzir o vies de publicacao.
Transversal LLM (Large Language Model) Modelo de linguagem com bilhões a trilhões de parâmetros, treinado em corpus textual massivo via arquitetura Transformer. Ancestral imediato: BERT (2018) e GPT-2 (2019). Marcos: GPT-3 (2020), modelos de instrução (2022), modelos multimodais (2023+).
IA/ML MANOVA Análise multivariada de variância: extensão da ANOVA para múltiplas variáveis dependentes simultaneamente. Testa se médias diferem entre grupos considerando estrutura de correlação entre desfechos. Estatísticas de teste: Wilks Lambda, Pillai, Hotelling-Lawley, Roy.
Estatística Mediação e moderação Mediação: variável M explica COMO X afeta Y (mecanismo causal). Moderação: variável W modifica QUANDO ou PARA QUEM o efeito de X em Y ocorre (interação). Distinção formalizada por Baron e Kenny (1986); abordagem moderna via Hayes (2018).
Estatística Megajournal Periódico de acesso aberto de larga escala e escopo amplo cuja revisão por pares avalia apenas a solidez técnica e metodológica do trabalho, deixando novidade e importância para a comunidade julgar após a publicação. Inaugurado pela PLOS ONE em 2006 e financiado por APC.
Escrita Métricas de classificação Família de métricas para avaliar modelos de classificação supervisionada: accuracy, precision, recall, F1-score, AUC-ROC. Cada uma captura aspecto diferente do trade-off entre falsos positivos e falsos negativos. Powers (2011) sintetizou o framework canônico.
IA/ML Modelagem de equações estruturais (SEM) Família de técnicas multivariadas que combina análise fatorial e regressão múltipla para testar redes de relações entre variáveis latentes e observadas. Padrão em ciências sociais, comportamentais e da saúde para validar modelos teóricos complexos.
Estatística Modelagem de tópicos (LDA) Latent Dirichlet Allocation: modelo probabilístico generativo que descobre tópicos latentes em corpus de documentos. Cada documento é mistura de tópicos; cada tópico é distribuição sobre palavras. Blei, Ng e Jordan (2003) consolidaram o framework canônico em NLP clássico.
IA/ML Modelos de difusão Familia de modelos generativos profundos que sintetizam dados invertendo um processo de ruido: adicionam ruido gaussiano aos dados em muitos passos e treinam uma rede para desfazer o processo, gerando amostras a partir do ruido. Base da geracao de imagem moderna.
IA/ML Modelos mistos (GLMM) Modelos generalizados que combinam efeitos fixos (parâmetros populacionais) e efeitos aleatórios (variação entre grupos/sujeitos). Apropriados para dados aninhados, longitudinais ou agrupados. Implementação canônica em R via lme4 (Bates et al., 2015).
Estatística Open Access Modelo de publicação acadêmica em que o conteúdo é gratuito e livremente acessível ao leitor, sem barreira de assinatura. Existe em quatro variantes principais — gold, green, diamond e hybrid — com diferentes modelos de financiamento e licenciamento.
Escrita ORCID Identificador único e persistente para pesquisadores, no formato de 16 dígitos. Mantido pela ORCID Inc., organização sem fins lucrativos. Hoje exigido por grande parte de financiadores e periódicos como condição para submissão e contemplação de fomento.
Transversal Overfitting Fenômeno em que um modelo de machine learning ajusta-se excessivamente ao ruído amostral do conjunto de treino, perdendo capacidade de generalizar. Detectado pelo gap entre erro de treino (baixo) e erro de teste (alto). Underfitting é o problema oposto.
IA/ML p-hacking e HARKing Duas praticas que inflam falsos positivos: p-hacking tenta varias analises ate cruzar o limiar de significancia, explorando graus de liberdade do pesquisador; HARKing formula a hipotese depois de ver os resultados e a apresenta como prevista a priori.
Transversal P-valor Probabilidade de obter, sob a hipótese nula, valor de estatística de teste tão extremo ou mais extremo que o observado. Métrica central no teste de hipóteses frequentista. ASA emitiu declaração formal em 2016 alertando contra interpretações equivocadas.
Estatística Pareamento por escore de propensão Método de inferência causal em estudos observacionais que pareia tratados e controles com base no escore de propensão — probabilidade estimada de receber tratamento dadas covariáveis. Rosenbaum e Rubin (1983) formalizaram. Reduz viés de confundimento observável.
Estatística Peer review aberto Termo guarda-chuva para variantes da revisao por pares que tornam transparente um processo fechado. Define-se por dois eixos independentes: identidades abertas (nome do parecerista revelado) e relatorios abertos (pareceres publicados ao lado do artigo).
Escrita Periódico predatório Periódico que cobra APC sem oferecer revisão por pares rigorosa nem práticas editoriais legítimas, explorando autores e poluindo a literatura científica. Termo cunhado por Jeffrey Beall em 2010. Definição consensual em Grudniewicz et al. (2019, Nature).
Escrita Plan S Iniciativa internacional lançada em 2018 pela cOAlition S — coalizão de financiadores de pesquisa europeus e globais — que exige acesso aberto imediato e sem embargo a publicações resultantes de fomento dos signatários. Implementação plena desde 2021.
Escrita Plano de gestão de dados Documento formal que descreve como os dados de um projeto serao criados, organizados, documentados, armazenados, preservados e compartilhados ao longo do ciclo de vida da pesquisa. Operacionaliza os principios FAIR e e exigido por financiadores.
Transversal Plataforma Lattes (CNPq) Sistema integrado do CNPq que mantém currículos de pesquisadores brasileiros, grupos de pesquisa (Diretório) e instituições. Padrão nacional para avaliação acadêmica, distribuição de bolsas e financiamento. Em operação desde 1999.
Transversal Plataforma Sucupira (CAPES) Sistema da CAPES para coleta de dados de programas de pós-graduação brasileiros (mestrado, doutorado). Base da avaliação quadrienal: notas 3-7 que determinam reconhecimento de cursos e distribuição de bolsas. Em operação desde 2014, substituindo o CAPES Coleta.
Transversal Poder estatístico Probabilidade de um teste estatístico rejeitar corretamente a hipótese nula quando ela é falsa, ou seja, $1 - \beta$. Padrão mínimo recomendado: 0,80. Cohen (1988) formalizou cálculo de tamanho amostral baseado em poder. Pré-registro hoje exige análise a priori.
Estatística Pré-registro de pesquisa Depósito formal de hipóteses, métodos e plano de análise antes da coleta ou análise de dados, em repositório com timestamp verificável (OSF, AsPredicted). Distingue confirmatório de exploratório. Nosek et al. (2018) sintetizaram a revolução.
Transversal Preprint Versão de manuscrito acadêmico depositada em repositório aberto antes ou paralelamente à submissão a periódico. arXiv (1991) iniciou a prática em física; bioRxiv (2013), SciELO Preprints e SSRN expandiram para outras áreas. Recebe DOI, é citável.
Escrita Princípios FAIR Conjunto de quatro princípios para gestão de dados de pesquisa: Findable, Accessible, Interoperable, Reusable. Articulados por Wilkinson et al. (2016, Scientific Data). Padrão internacional adotado por European Commission, NIH e funders globais.
Transversal PRISMA Preferred Reporting Items for Systematic reviews and Meta-Analyses: diretriz internacional para reporting de revisões sistemáticas. Versão atual: PRISMA 2020 (Page et al., BMJ). 27 itens em checklist + diagrama de fluxo. Adoção quase universal em saúde.
Transversal Processamento de linguagem natural (PLN) Campo da inteligência artificial e linguística computacional dedicado a representar, processar e gerar linguagem humana com sistemas computacionais. Engloba desde análise sintática clássica até modelos de linguagem em larga escala como BERT e GPT.
IA/ML PROSPERO International Prospective Register of Systematic Reviews, mantido pelo CRD (Centre for Reviews and Dissemination, University of York) desde 2011. Registra protocolos de revisões sistemáticas em saúde antes do início, com timestamp permanente e DOI. Padrão internacional.
Transversal RAG (Recuperação aumentada por geração) Recuperação aumentada por geração (Retrieval-Augmented Generation): arquitetura que combina busca em base externa de documentos com modelo gerador de linguagem. Padrão atual para responder perguntas com fundamentação documental e reduzir alucinação em LLMs.
IA/ML Random forest Metodo de conjunto que combina muitas arvores de decisao independentes, construidas com bagging e selecao aleatoria de variaveis, e agrega suas previsoes por voto ou media. A aleatoriedade descorrelaciona as arvores e reduz a variancia.
IA/ML Redes adversárias generativas (GANs) Modelos generativos em que duas redes competem: um gerador produz amostras a partir de ruido e um discriminador tenta separar reais de geradas. O treino busca um equilibrio minimax. Geram em passo unico, mas sofrem com instabilidade e colapso de modo.
IA/ML Registered Reports Formato de publicação em que a revisão por pares e o aceite ocorrem antes da coleta de dados. Em dois estágios, o periódico concede aceite em princípio com base na pergunta e no método, e se compromete a publicar o estudo independentemente do resultado.
Escrita Regressão linear Modelo estatístico que estima a relação linear entre uma variável dependente e uma ou mais independentes. Fundação metodológica de boa parte da estatística aplicada e ponto de entrada didático para modelos preditivos mais complexos.
Estatística Regressão logística Modelo estatístico para variável dependente categórica que estima probabilidade de pertencer a uma categoria como função logística de preditores. Variantes: binária, multinomial e ordinal. Cox (1958) formalizou para resposta binária.
Estatística Reprodutibilidade e replicabilidade Reprodutibilidade: obter mesmos resultados com mesmos dados e código. Replicabilidade: obter resultados consistentes em estudo independente com nova coleta. Distinção formalizada por Goodman et al. (2016) e adotada pela National Academies (2019).
Transversal Resposta a pareceristas Documento técnico que acompanha versão revisada de manuscrito, respondendo ponto a ponto aos comentários dos pareceristas com modificações no texto e justificativas. Determinante para decisão de revisão: aceitar, revisar de novo, rejeitar.
Escrita Retratação (retraction) Remoção formal de artigo do registro científico devido a erro fundamental, má conduta ou irreprodutibilidade. Não é apagamento: artigo permanece com aviso de retratação visível e DOI ativo. COPE define fluxo. Retraction Watch monitora desde 2010.
Escrita Revisão de escopo (scoping review) Síntese estruturada que mapeia literatura sobre tópico amplo, identifica conceitos-chave, lacunas e tipos de evidência. Distingue-se de revisão sistemática por escopo mais amplo e ausência de avaliação de qualidade. Framework de Arksey e O'Malley (2005); reporting via PRISMA-ScR.
Transversal Revisão guarda-chuva Revisao de revisoes: sintetiza, compara e contrasta os achados de varias revisoes sistematicas e meta-analises sobre um tema, tomando a revisao como unidade de analise. Um dos niveis mais altos de sintese de evidencias.
Transversal Revisão por pares Mecanismo central de validação científica em que pareceristas externos avaliam manuscrito antes da publicação. Modalidades: single-blind, double-blind, open peer review, post-publication peer review. Estrutura herdada do século XVIII, formalizada no século XX.
Escrita Revisão sistemática Síntese estruturada de literatura sobre pergunta de pesquisa específica, com método explícito, reproduzível e pré-registrado. Identifica, avalia e integra estudos relevantes minimizando viés. PRISMA 2020 é a diretriz de reporting padrão.
Transversal Segmentação semântica e de instância Tarefas de visão computacional que classificam cada pixel de uma imagem. Segmentação semântica atribui rótulo de classe por pixel (sem distinguir instâncias); segmentação de instância distingue objetos individuais da mesma classe. mIoU é métrica padrão.
IA/ML Séries temporais Família de métodos estatísticos para dados ordenados no tempo, modelando tendência, sazonalidade, autocorrelação e ruído. Decomposição clássica X = T + S + R; modelos paramétricos canônicos ARIMA (Box e Jenkins, 1976). Forecasting é objetivo central.
Estatística SHAP values SHapley Additive exPlanations: framework de interpretabilidade de modelos de ML que atribui contribuição de cada feature à predição individual via valores de Shapley da teoria dos jogos cooperativos. Lundberg e Lee (2017) unificaram métodos prévios.
IA/ML SJR (SCImago Journal Rank) Indicador de prestígio de periódicos proposto por González-Pereira et al. em 2010. Aplica algoritmo derivado do PageRank a citações do Scopus, ponderando cada citação pelo prestígio da revista que cita. Aberto, gratuito, alternativa estrutural ao JIF.
Escrita SNIP e Eigenfactor Duas metricas de periodico que corrigem o defeito do fator de impacto de tratar toda citacao como igual. O SNIP normaliza pela area (potencial de citacao do campo); o Eigenfactor pondera cada citacao pelo prestigio do periodico que cita, num esquema tipo PageRank.
Escrita Tamanho de efeito Medida quantitativa da magnitude de um efeito ou diferença observada, independente do tamanho da amostra. Inclui famílias d (Cohen), r (correlação) e razão de chances. Componente exigido em reporting moderno por DORA, ASA e estilos APA/AMA.
Estatística Taxonomia CRediT Contributor Roles Taxonomy: padrão internacional de 14 categorias de contribuição em manuscritos acadêmicos, mantido pela CASRAI/NISO. Substitui a noção genérica de autoria por declaração explícita de papéis. Adotado por mais de 100 mil periódicos.
Escrita Tokenização Processo que converte texto bruto na sequencia de unidades discretas (tokens) que um modelo de linguagem processa. Os modelos atuais usam subpalavras (BPE, SentencePiece), um meio-termo entre palavra inteira e caractere que define custo e cobertura de vocabulario.
IA/ML Transfer learning Paradigma de ML em que conhecimento aprendido em uma tarefa-fonte é transferido para tarefa-alvo relacionada, reduzindo dados rotulados e tempo de treino necessários. Pan e Yang (2010) consolidaram a taxonomia. Base do uso de modelos pré-treinados em deep learning moderno.
IA/ML Validação cruzada Técnica de avaliação de modelos preditivos que particiona o dataset em k subconjuntos, treina k vezes alternando qual subconjunto serve de validação, e reporta a média do erro. Padrão para datasets pequenos onde divisão treino/teste fixa é instável.
IA/ML Validade convergente e discriminante Critérios de validade de instrumento: convergente (itens do mesmo construto correlacionam fortemente) e discriminante (itens de construtos distintos correlacionam fracamente). Operacionalização clássica via AVE de Fornell e Larcker (1981) e HTMT de Henseler et al. (2015).
Estatística Versão aceita do autor (AAM) Versão do manuscrito após a revisão por pares e o aceite, mas antes da diagramação final da editora (postprint). Tem conteúdo equivalente ao publicado e é a versão típica do autoarquivamento na via verde do acesso aberto.
Escrita Viés de publicação Distorcao sistematica da literatura que resulta de estudos serem publicados conforme a direcao e a forca dos achados, nao a qualidade do metodo. Resultados positivos predominam; nulos ficam na gaveta de arquivo, inflando meta-analises.
Transversal