IA E MACHINE LEARNING

Ajuste fino

Adaptação de um modelo pré-treinado a uma tarefa ou domínio específico via treinamento adicional sobre dados rotulados menores. Padrão dominante em PLN entre 2018 e 2022, ainda relevante para BERT e variantes especializadas em domínios técnicos.

Definição estendida

Ajuste fino (fine-tuning) é o processo de adaptar um modelo pré-treinado a uma tarefa ou domínio específico, via treinamento adicional com dados rotulados em quantidade menor que a usada no pré-treino. A formalização do paradigma em PLN moderno é Howard & Ruder (2018, ULMFiT), que demonstrou que modelos de linguagem pré-treinados em corpus genérico podiam ser ajustados para classificação de texto com poucos exemplos rotulados, superando arquiteturas treinadas do zero. BERT (Devlin et al., 2018) consolidou o paradigma: pré-treinar em escala via masked language modeling, depois ajustar com cabeça pequena específica para a tarefa final (classificação, extração, question answering). Variantes contemporâneas incluem ajuste fino completo (todos os parâmetros são atualizados), ajuste com adaptadores (módulos pequenos inseridos em camadas, parâmetros originais congelados), LoRA (Low-Rank Adaptation, atualizações de baixa dimensão), e prefix tuning. A escolha depende de recursos computacionais e quantidade de dados rotulados disponíveis.

Quando se aplica

Ajuste fino é apropriado quando há tarefa específica com algumas centenas a alguns milhares de exemplos rotulados, e a tarefa é distante o suficiente do pré-treino para que prompt engineering sozinho não baste. Aplicações típicas incluem classificação de domínio especializado (jurisprudência, prontuários médicos, literatura científica), extração de entidades em terminologia técnica, classificação multi-rótulo com taxonomia específica, e tradução em pares de línguas com poucos recursos. Para empresas e pesquisadores com dados proprietários sensíveis, ajuste fino é alternativa a APIs comerciais de LLMs.

Quando NÃO se aplica

Não se aplica quando dados rotulados são muito poucos (dezenas) — few-shot prompting com modelos generativos pode ser superior. Não se aplica quando a tarefa é genérica e bem coberta por modelos de propósito geral (GPT-4, Claude) — diferença de desempenho não justifica o custo de ajustar. Não substitui pré-treinamento de domínio quando vocabulário é radicalmente diferente — domínios extremamente especializados (química quântica, biologia molecular, jurisprudência arcaica) podem exigir domain-adaptive pretraining antes do ajuste fino para tarefa específica. Em produção com restrição severa de hardware, modelo grande ajustado pode ter inferência inviável; alternativas destiladas ou distillation pós-ajuste são preferíveis.

Aplicações por área

Saúde: ajuste de BERT em ClinicalBERT, BioBERT para extração em prontuários e literatura biomédica em escala. — Direito: ajuste em corpus de jurisprudência para classificação de área, extração de argumentos, sumarização de decisões. — Pesquisa em humanidades digitais: ajuste em corpora históricos, manuscritos digitalizados, literatura em línguas com poucos recursos. — Indústria e empresa: ajuste para classificação de tickets, análise de feedback, chatbots de domínio.

Armadilhas comuns

A primeira armadilha é ajustar modelo grande sem dados suficientes — risco de overfitting severo. Estimativas heurísticas sugerem mínimo de algumas centenas de exemplos rotulados por classe para tarefa de classificação binária. A segunda é não usar conjunto de validação separado: ajuste com avaliação só no treino produz modelo que parece excelente mas não generaliza. A terceira é taxa de aprendizado mal calibrada: taxa muito alta destrói representações pré-treinadas (catastrophic forgetting); muito baixa não move parâmetros o suficiente. Learning rate scheduling discriminativo (camadas mais profundas com taxa menor) é prática consolidada. A quarta é ignorar viés do modelo base: ajuste fino herda toda associação problemática do pré-treino, e não corrige magicamente. A quinta é não documentar processo no manuscrito: versão do modelo base, seed, taxa de aprendizado, número de épocas, divisão de dados são informações exigidas para reprodutibilidade.

Última atualização —