Arquitetura Transformer — Glossário Aria Research

Definição estendida

A arquitetura Transformer foi proposta por Vaswani et al. (2017) no artigo “Attention Is All You Need”, em ruptura deliberada com redes recorrentes (RNNs, LSTMs) que dominavam PLN até então. A inovação central é o mecanismo de auto-atenção (self-attention), que permite ao modelo computar, para cada token de uma sequência, uma combinação ponderada de todos os outros tokens — capturando dependências de longo alcance sem o gargalo sequencial das RNNs. A operação fundamental é:

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

onde $Q$ , $K$ e $V$ são matrizes de queries, keys e values, e $d_k$ é a dimensão das keys. Essa operação é replicada em múltiplas cabeças (multi-head attention), empilhada em várias camadas, e combinada com codificação posicional para preservar informação de ordem. A arquitetura original tem componente codificador (usado em BERT) e decodificador (usado em GPT); as duas linhagens dominam respectivamente compreensão e geração. Treinamento massivamente paralelizável em GPU/TPU tornou possível escalar para bilhões de parâmetros — impossibilidade prática em arquiteturas recorrentes.

Quando se aplica

Transformer é hoje a arquitetura padrão para qualquer tarefa de processamento de sequência: linguagem natural, código, séries temporais com sinal sequencial relevante, sequências biológicas (DNA, proteínas via AlphaFold), música, e crescentemente visão computacional (Vision Transformers). Para qualquer projeto novo de PLN com dados em quantidade razoável, a escolha de partida é uma variante de Transformer pré-treinado.

Quando NÃO se aplica

Não é necessariamente a melhor escolha para sequências muito curtas com sinal forte em ordem temporal local — RNNs simples ou modelos clássicos podem ser suficientes e mais baratos. Não é apropriada para problemas tabulares puros, onde gradient boosting (XGBoost, LightGBM) supera consistentemente abordagens neurais. Em produção com restrição severa de latência ou energia (dispositivos móveis, edge), arquiteturas mais leves ou destiladas costumam ser preferíveis. O custo quadrático em comprimento de sequência ( $O(n^2)$ na atenção padrão) limita o uso direto em documentos muito longos sem variantes específicas (Longformer, Performer, atenção esparsa).

Aplicações por área

— PLN em geral: estado da arte praticamente universal desde 2018; toda tarefa relevante adota Transformer. — Biologia computacional: AlphaFold 2 e 3 baseados em Transformer revolucionaram predição de estrutura proteica. — Visão computacional: Vision Transformers (ViT) competem ou superam CNNs em classificação e segmentação. — Multimodalidade: modelos como CLIP, Flamingo, GPT-4V combinam texto e imagem em arquitetura Transformer unificada.

Armadilhas comuns

A primeira armadilha é tratar Transformer como solução para qualquer problema de aprendizado supervisionado — para dados tabulares, séries temporais com pouco sinal sequencial, ou regressão simples, modelos clássicos costumam superar com fração do custo. A segunda é ignorar custo computacional e ambiental: treinar Transformer grande do zero exige milhões em hardware e tem pegada de carbono documentada; ajustar pré-treinado é a opção viável em quase todos os casos. A terceira é assumir que mais parâmetros equivalem a melhor desempenho — leis de escala estabelecem retornos decrescentes, e modelos pequenos especializados frequentemente superam genéricos grandes na tarefa-alvo. A quarta é negligenciar limite de contexto: atenção padrão escala quadraticamente; documentos longos exigem variantes de atenção esparsa, chunking ou modelos especializados. A quinta é confiar em métricas de benchmark genérico (GLUE, SuperGLUE) sem avaliar no domínio próprio — saturação em benchmark não garante desempenho em produção.