IA E MACHINE LEARNING · 35 verbetes

IA e Machine Learning.

Verbetes sobre métodos computacionais aplicados à pesquisa: aprendizado de máquina, processamento de linguagem natural, visão computacional, modelos de linguagem e arquiteturas neurais contemporâneas.

Ajuste fino Adaptação de um modelo pré-treinado a uma tarefa ou domínio específico via treinamento adicional sobre dados rotulados menores. Padrão dominante em PLN entre 2018 e 2022, ainda relevante para BERT e variantes especializadas em domínios técnicos.

Alucinação Geração, por um modelo de linguagem, de conteúdo fluente e plausível mas factualmente incorreto ou não sustentado pela fonte. Organiza-se em dois eixos: intrínseca vs extrínseca e factualidade vs fidelidade ao material fornecido.

Análise de sentimento Subárea de NLP que classifica polaridade afetiva (positiva, negativa, neutra) ou identifica emoções específicas em texto. Abordagens evoluíram de léxicos manuais a classificadores supervisionados a modelos baseados em transformers. Pang e Lee (2008) consolidaram a área.

Anotação humana e inter-annotator agreement Processo de rotulagem manual de dados (texto, imagem, áudio) por anotadores humanos, base de datasets supervisionados em ML. Concordância entre anotadores (IAA) é medida via kappa de Cohen (1960), alpha de Krippendorff. Critério de qualidade essencial.

Aprendizado por reforço Terceiro paradigma do aprendizado de maquina: um agente aprende por interacao com um ambiente, escolhendo acoes e maximizando a recompensa acumulada ao longo do tempo. Formalizado pelo processo de decisao de Markov; combinado com redes profundas, e o RL profundo.

Aprendizado zero-shot e few-shot Regimes em que um modelo resolve uma tarefa sem nenhum exemplo rotulado da classe-alvo (zero-shot) ou com pouquissimos (few-shot). Nos modelos de linguagem, tomam a forma de aprendizado em contexto, com a tarefa especificada no proprio prompt.

Arquitetura Transformer Arquitetura de rede neural baseada exclusivamente em mecanismos de atenção, proposta por Vaswani et al. em 2017. Substituiu redes recorrentes em quase toda tarefa de PLN e tornou-se a base estrutural de BERT, GPT, Claude, Gemini e da geração atual de modelos de linguagem.

AUC-ROC Área sob a curva ROC (Receiver Operating Characteristic) — métrica de discriminação de classificadores binários que integra performance em todos os limiares de decisão. Hanley e McNeil (1982) formalizaram interpretação probabilística. Varia de 0,5 (aleatório) a 1,0 (perfeito).

BERT Modelo de linguagem pré-treinado baseado em arquitetura Transformer, desenvolvido pelo Google em 2018. Treinado por *masked language modeling*, BERT estabeleceu o paradigma pré-treino + ajuste fino que dominou processamento de linguagem natural até a era dos LLMs generativos.

BERTopic Algoritmo moderno de modelagem de tópicos que combina embeddings contextuais (BERT), redução de dimensionalidade (UMAP), clustering (HDBSCAN) e c-TF-IDF. Grootendorst (2022) consolidou. Costuma superar LDA em coerência semântica em corpora pequenos a médios.

CLIP (Contrastive Language-Image Pre-training) Modelo multimodal pré-treinado por OpenAI que aprende representações alinhadas de imagens e texto via aprendizado contrastivo em 400M pares imagem-legenda da web. Radford et al. (2021). Habilita zero-shot classification, image search, base de modelos generativos visuais.

Dados sintéticos Dados gerados artificialmente que reproduzem as propriedades estatisticas de um conjunto real sem expor os registros originais. A qualidade e avaliada em tres dimensoes em tensao: fidelidade, utilidade e privacidade.

Desbalanceamento de classes Situacao em que as categorias de um problema de classificacao nao estao igualmente representadas, com uma classe majoritaria dominando a minoritaria, em geral a de interesse. Tratado por reamostragem (SMOTE), custo e escolha de metrica adequada.

Divisão treino/validação/teste Particionamento de um conjunto de dados em três subconjuntos disjuntos para machine learning: treino (ajuste de parâmetros), validação (seleção de hiperparâmetros) e teste (avaliação final imparcial). Padrão metodológico para evitar contaminação.

Embeddings Representações vetoriais densas de tokens — palavras, sentenças, documentos, imagens — em espaço contínuo de dimensão fixa. Formalizadas em PLN por word2vec (Mikolov, 2013); hoje base de busca semântica, RAG e da maioria das aplicações práticas de IA com texto.

Engenharia de features Conjunto de práticas para transformar dados brutos em features informativas para modelos de ML: codificação, normalização, criação de features derivadas, seleção, redução. Domingos (2012) articulou como variável central da performance prática em ML.

Fairness algorítmica Subárea de ML que estuda viés e discriminação em sistemas algorítmicos, com critérios formais (parity demográfica, igualdade de oportunidades, calibração) frequentemente em tensão matemática entre si. Barocas, Hardt e Narayanan (2019) consolidaram a referência.

Fine-tuning vs prompt engineering Comparação aplicada entre dois paradigmas de adaptação de LLMs: fine-tuning (atualização de pesos com dados específicos) e prompt engineering (design de instruções sem modificar o modelo). Trade-off entre custo, controle, latência e generalização.

Gradient boosting Tecnica de conjunto que soma muitas arvores rasas treinadas em sequencia, cada uma ajustada para corrigir os erros do conjunto anterior aproximando o gradiente negativo da perda. Padrao de fato em dados tabulares via XGBoost e LightGBM.

LIME Metodo de explicabilidade local e agnostico ao modelo: para explicar uma previsao individual de uma caixa-preta, ajusta um modelo simples e interpretavel na vizinhanca daquele caso, a partir de perturbacoes ponderadas por proximidade.

LLM (Large Language Model) Modelo de linguagem com bilhões a trilhões de parâmetros, treinado em corpus textual massivo via arquitetura Transformer. Ancestral imediato: BERT (2018) e GPT-2 (2019). Marcos: GPT-3 (2020), modelos de instrução (2022), modelos multimodais (2023+).

Métricas de classificação Família de métricas para avaliar modelos de classificação supervisionada: accuracy, precision, recall, F1-score, AUC-ROC. Cada uma captura aspecto diferente do trade-off entre falsos positivos e falsos negativos. Powers (2011) sintetizou o framework canônico.

Modelagem de tópicos (LDA) Latent Dirichlet Allocation: modelo probabilístico generativo que descobre tópicos latentes em corpus de documentos. Cada documento é mistura de tópicos; cada tópico é distribuição sobre palavras. Blei, Ng e Jordan (2003) consolidaram o framework canônico em NLP clássico.

Modelos de difusão Familia de modelos generativos profundos que sintetizam dados invertendo um processo de ruido: adicionam ruido gaussiano aos dados em muitos passos e treinam uma rede para desfazer o processo, gerando amostras a partir do ruido. Base da geracao de imagem moderna.

Overfitting Fenômeno em que um modelo de machine learning ajusta-se excessivamente ao ruído amostral do conjunto de treino, perdendo capacidade de generalizar. Detectado pelo gap entre erro de treino (baixo) e erro de teste (alto). Underfitting é o problema oposto.

Processamento de linguagem natural (PLN) Campo da inteligência artificial e linguística computacional dedicado a representar, processar e gerar linguagem humana com sistemas computacionais. Engloba desde análise sintática clássica até modelos de linguagem em larga escala como BERT e GPT.

RAG (Recuperação aumentada por geração) Recuperação aumentada por geração (Retrieval-Augmented Generation): arquitetura que combina busca em base externa de documentos com modelo gerador de linguagem. Padrão atual para responder perguntas com fundamentação documental e reduzir alucinação em LLMs.

Random forest Metodo de conjunto que combina muitas arvores de decisao independentes, construidas com bagging e selecao aleatoria de variaveis, e agrega suas previsoes por voto ou media. A aleatoriedade descorrelaciona as arvores e reduz a variancia.

Redes adversárias generativas (GANs) Modelos generativos em que duas redes competem: um gerador produz amostras a partir de ruido e um discriminador tenta separar reais de geradas. O treino busca um equilibrio minimax. Geram em passo unico, mas sofrem com instabilidade e colapso de modo.

Segmentação semântica e de instância Tarefas de visão computacional que classificam cada pixel de uma imagem. Segmentação semântica atribui rótulo de classe por pixel (sem distinguir instâncias); segmentação de instância distingue objetos individuais da mesma classe. mIoU é métrica padrão.

SHAP values SHapley Additive exPlanations: framework de interpretabilidade de modelos de ML que atribui contribuição de cada feature à predição individual via valores de Shapley da teoria dos jogos cooperativos. Lundberg e Lee (2017) unificaram métodos prévios.

Tokenização Processo que converte texto bruto na sequencia de unidades discretas (tokens) que um modelo de linguagem processa. Os modelos atuais usam subpalavras (BPE, SentencePiece), um meio-termo entre palavra inteira e caractere que define custo e cobertura de vocabulario.

Transfer learning Paradigma de ML em que conhecimento aprendido em uma tarefa-fonte é transferido para tarefa-alvo relacionada, reduzindo dados rotulados e tempo de treino necessários. Pan e Yang (2010) consolidaram a taxonomia. Base do uso de modelos pré-treinados em deep learning moderno.

Validação cruzada Técnica de avaliação de modelos preditivos que particiona o dataset em k subconjuntos, treina k vezes alternando qual subconjunto serve de validação, e reporta a média do erro. Padrão para datasets pequenos onde divisão treino/teste fixa é instável.

YOLO (You Only Look Once) Família de modelos de detecção de objetos em tempo real que reformulou detecção como tarefa de regressão direta de bounding boxes e classes em uma passada única pela rede. Redmon et al. (2016). IoU é métrica central; mAP avalia performance global.