Transfer learning — Glossário Aria Research

Definição estendida

Transfer learning (aprendizado por transferência) é o paradigma de aprendizado de máquina em que conhecimento adquirido em uma tarefa-fonte ( $T_s$ ) com dados $D_s$ é transferido para melhorar aprendizado em uma tarefa-alvo ( $T_t$ ) com dados $D_t$ relacionada. Pan e Yang (2010, IEEE TKDE) ofereceram a taxonomia consolidada distinguindo: inductive transfer learning (tarefas distintas, mesmo domínio ou domínios diferentes), transductive transfer learning (mesma tarefa, domínios distintos — incluindo domain adaptation), e unsupervised transfer learning (sem rótulos em ambos). Yosinski et al. (2014, NeurIPS) estudaram empiricamente a transferibilidade de features em redes profundas, mostrando que camadas iniciais aprendem features genéricas (bordas, texturas em CNNs; sintaxe básica em RNNs) e camadas profundas aprendem features especializadas — base para a estratégia moderna de fine-tuning sobre modelos pré-treinados. Em deep learning contemporâneo, transfer learning é a regra: modelos pré-treinados em datasets grandes (ImageNet para visão; corpora de texto massivos para NLP) são reutilizados como ponto de partida para tarefas downstream, reduzindo dados rotulados necessários, tempo de treino e overfitting em domínios pequenos.

Quando se aplica

Transfer learning aplica-se em qualquer projeto de ML onde dados rotulados na tarefa-alvo são limitados mas existem modelos pré-treinados em tarefas relacionadas. É padrão em visão computacional (CNNs pré-treinadas em ImageNet ou modelos como CLIP), em NLP (BERT, RoBERTa, T5, GPT pré-treinados em corpora gerais), em fala (modelos de speech-to-text pré-treinados), em domínios biomédicos (modelos pré-treinados em PubMed para tarefas clínicas). Aplica-se em projetos de pesquisa científica onde labelar dados é caro: identificação de espécies em fotos com ResNet pré-treinado, classificação de patologias em imagens médicas, análise de sentimento em domínio especializado a partir de modelo geral. Aplica-se em iteração rápida de protótipos: modelo pré-treinado fornece baseline forte em horas em vez de dias.

Quando NÃO se aplica

Não se aplica quando tarefa-fonte e tarefa-alvo têm pouca relação semântica ou estrutural — negative transfer (degradação por transferência inadequada) é risco real. Não se aplica em domínios sem modelos pré-treinados disponíveis em formato compatível: alguns domínios industriais específicos não têm cobertura. Não se aplica diretamente em modificação radical de arquitetura: pré-treinado de input shape $H \times W$ não transfere bem para input radicalmente diferente sem adaptação. Não substitui dados de qualidade na tarefa-alvo: transfer learning reduz volume necessário de dados rotulados, mas não elimina; viés do modelo pré-treinado pode contaminar tarefa-alvo (e.g., viés representacional documentado em CLIP). Em problemas extremamente simples (pouca features, padrão linear), transfer learning é overkill — modelo simples baseline supera.

Aplicações por área

— Visão computacional: ResNet, EfficientNet, Vision Transformers pré-treinados em ImageNet são starting points padrão. — NLP: BERT, RoBERTa, GPT, T5 fine-tuned para classificação, NER, QA — paradigma dominante desde 2018. — Saúde: modelos pré-treinados em ImageNet adaptados para radiologia; CheXNet, modelos pré-treinados em PubMed para textos clínicos. — Pesquisa em ML científico: Foundation Models e self-supervised learning expandiram transfer learning para genômica, química, ciências físicas.

Armadilhas comuns

A primeira armadilha é não monitorar negative transfer: tarefa-alvo distante demais da tarefa-fonte pode produzir performance pior que treino do zero — comparar com baseline simples é essencial. A segunda é congelar todas as camadas do pré-treinado: estratégia ótima frequentemente envolve fine-tuning das últimas camadas e congelamento das iniciais; experimentação caso a caso. A terceira é ignorar viés representacional do pré-treinado: modelos pré-treinados em ImageNet têm viés geográfico (sub-representação de objetos não-ocidentais); modelos NLP em inglês têm viés cultural; auditoria é necessária em aplicações sensíveis. A quarta é reaproveitar pré-treinado de versão obsoleta sem testar versões mais recentes: modelos evoluem rapidamente; comparação entre versões é prática padrão em pesquisa publicada. A quinta é não documentar exatamente versão do pré-treinado, pesos, e configurações de fine-tuning: reprodutibilidade exige especificação completa.