Aprendizado por reforço — Glossário Aria Research

Definição estendida

Aprendizado por reforço (reinforcement learning, RL) é o terceiro paradigma de aprendizado de máquina, distinto do supervisionado e do não supervisionado. Em vez de aprender de exemplos rotulados, um agente aprende por interação: observa o estado de um ambiente, escolhe uma ação, recebe uma recompensa e transita para um novo estado, ajustando seu comportamento para maximizar a recompensa acumulada ao longo do tempo. O arcabouço formal é o processo de decisão de Markov, definido por estados, ações, uma função de recompensa e uma dinâmica de transição. A política é a regra que mapeia estados em ações, e a função de valor estima o retorno esperado de longo prazo. O aprendizado por reforço profundo combina esse esquema com redes neurais que aproximam a política ou o valor. Arulkumaran e colaboradores (2017) organizam o campo em métodos baseados em valor, como o Q-learning profundo, e baseados em política, como os métodos de gradiente de política e ator-crítico.

Quando se aplica

O RL se aplica a problemas sequenciais de decisão, em que a escolha presente afeta estados e recompensas futuros e não há um conjunto de respostas certas para imitar. Aplica-se quando existe um sinal de recompensa bem definido e um ambiente, real ou simulado, com o qual o agente pode interagir muitas vezes. Mnih e colaboradores (2015) demonstraram o paradigma ao treinar um único agente que aprendeu a jogar dezenas de jogos de Atari diretamente dos pixels, atingindo desempenho humano. Silver e colaboradores (2016) levaram a ideia ao Go, vencendo um campeão humano com uma combinação de redes profundas e busca em árvore. Aplica-se hoje a robótica, controle, otimização de sistemas, recomendação sequencial e ao ajuste de modelos de linguagem por reforço com feedback humano.

Quando NÃO se aplica

O RL não se aplica quando o problema é, na verdade, de predição estática: se há rótulos e nenhuma decisão sequencial, o aprendizado supervisionado resolve com muito menos custo. Não se aplica sem um sinal de recompensa confiável; recompensas mal especificadas levam o agente a otimizar o objetivo errado, explorando brechas em vez de resolver a tarefa. Não se aplica de forma barata: o RL é notoriamente ineficiente em amostras, exigindo um número enorme de interações, o que o torna impraticável quando cada tentativa no mundo real é cara ou perigosa. Não se aplica bem sem um simulador fiel quando o treino direto é arriscado, e a diferença entre simulação e realidade pode invalidar a política aprendida. E não se aplica onde a reprodutibilidade é frágil: resultados de RL são sensíveis a sementes, hiperparâmetros e detalhes de implementação.

Aplicações por área

Robótica e controle: aprendizado de políticas de locomoção e manipulação, em geral treinadas em simulação antes da transferência para o mundo real.
Jogos e simulação: domínio histórico do paradigma, de Atari ao Go, usado como banco de prova de algoritmos.
Modelos de linguagem: ajuste por reforço com feedback humano para alinhar a saída de um modelo a preferências.
Operações e otimização: controle de sistemas, alocação de recursos e recomendação sequencial, onde a decisão afeta o estado futuro.

Armadilhas comuns

A primeira armadilha é especificar mal a recompensa: o agente otimiza exatamente o que se mede, e um objetivo malformulado produz comportamento que satisfaz a métrica sem resolver a tarefa. A segunda é subestimar a ineficiência de amostra, planejando o projeto como se as interações fossem baratas. A terceira é confiar em uma política treinada só em simulação sem medir a lacuna para o mundo real. A quarta é ignorar a fragilidade dos resultados: sem múltiplas sementes e relato honesto da variância, um ganho aparente pode ser ruído. A quinta é aplicar RL onde um método supervisionado bastaria, pagando a complexidade do paradigma sem a necessidade de decisão sequencial que o justifica.