Komputilo

Reinforcement learning: An introduction

Resumo de: SUTTON, R.; BARTO, A. Reinforcement learning: An introduction. [S.l.]: The MIT press, 2018. Capítulo 1.

O que é Aprendizado por Reforço?

É o aprender o que fazer, isto é, como correlacionar situações e ações, objetivando a maximização de um sinal numérico recompensador. Nesse contexto, o aprendiz não recebe informação sobre quais ações tomar, ao invés disso, deve descobrir quais ações resultam em maior recompensa provando-as. As duas características distinguidoras mais importantes do Aprendizado por Reforço são essas: busca mediante tentativa e erro, e recompensa adiada.

Aprendizado por Reforço é diferente do Aprendizado Supervisionado, que depende da existência de exemplos rotulados providos por um supervisor, os quais serão extrapolados/generalizados pela inteligência artificial. Embora o aprendizado supervisionado seja um tipo importante de aprendizado, não é adequado para o aprendizado pela interação, pois, em problemas interativos, é frequentemente impraticável obter exemplos corretos de comportamento desejável para todas as situações em que o agente deve agir. Em território inexplorado, que é onde o aprendizado é mais benéfico, o agente deve ser capaz de aprender com sua própria experiência.

Aprendizado por Reforço também é diferente do Aprendizado Não-Supervisionado, que busca encontrar estruturas ocultas em coleções de dados não rotulados. O Aprendizado por Reforço não tem esse objetivo, e sim o de maximizar o sinal recompensador. Assim, Aprendizado por Reforço é um terceiro paradigma de aprendizado de máquina.

Um dos desafios do Aprendizado por Reforço, totalmente ausente nos dois outros tipos de aprendizado mencionados, é o trade-offcompromisso entre explorationdescobrimento e exploitationaproveitamento. Para obter bastante recompensa, um agente de Aprendizado Supervisionado deve dar preferência para ações que ele tentou no passado e que se mostraram efetivas em produzir recompensa. O agente tem então que exploitaproveitamento o que ele já experimentou para obter recompensa, mas ao mesmo tempo ele tem que explore para fazer melhores seleções de ações no futuro. O dilema é que nenhuma das duas medidas, explorationdescobrimento e exploitationaproveitamento, pode ser buscada sozinha: o agente deve tentar uma variedade de ações e progressivamente favorecer as que parecerem melhores. Em uma tarefa estocástica, cada ação precisa ser experimentada muitas vezes para que se ganhe uma estimativa confiável de sua recompensa esperada.

De todas as formas de aprendizado de máquina, Aprendizado por Reforço é o mais próximo do tipo de aprendizado que humanos e outros animais fazem. Inclusive, muitos dos algoritmos centrais do Aprendizado por Reforço foram originalmente inspirados por sistemas de aprendizado biológicos.

Exemplos de Aprendizado por Reforço

  • Um robô móvel decide se deve entrar em uma nova sala em busca de mais lixo para coletar, ou começar a tentar encontrar seu caminho de volta à estação de recarregamento de sua bateria. Tal robô toma sua decisão com base no atual nível de carga de sua bateria e também em quão rapidamente e facilmente ele foi capaz de encontrar o recarregador no passado.
  • Um controlador adaptável ajusta os parâmetros de uma refinaria de petróleo em tempo real. O controlador otimiza o trade-offcompromisso entre qualidade, custo, e produção com base em custos, sem aderir estritamente aos pontos originalmente sugeridos pelos engenheiros.
  • Um mestre do xadrez realiza uma jogada. A escolha é informada tanto pelo planejamento, isto é, a previsão de possíveis respostas e contra-respostas, e por julgamentos imediatos, intuitivos, sobre quão desejáveis são posições e jogadas específicas.
  • Uma pessoa prepara seu café da manhã, criando uma teia complexa de comportamento condicional, e relações intrincadas de objetivos e sub-objetivos: abrir o guarda-louças, pegar a tigela,

Tais exemplos compartilham características básicas: todos envolvem interação entre um agente ativo tomador de decisão e seu ambiente, no qual o agente busca alcançar um objetivo apesar da incerteza sobre seu ambiente. As ações do agente afetam o estado futuro do ambiente, consequentemente afetando as ações e oportunidades disponíveis para o agente no futuro. A escolha correta requer levar em conta consequências indiretas e tardias das ações, e por isso requer previsão ou planejamento.

Ao mesmo tempo, em todos esses exemplos, os efeitos das ações não podem ser totalmente preditos. Portanto, o agente deve monitorar o ambiente frequentemente e reagir de forma apropriada. E também, em todos esses exemplos o agente pode usar sua experiência para melhorar seu desempenho ao longo do tempo.

Elementos do Aprendizado por Reforço

Para além do agente e do ambiente, pode-se identificar mais quatro sub elementos principais de um sistema de Aprendizado por Reforço: uma política, um sinal de recompensa, uma função de valor, e, opcionalmente, um modelo do ambiente.

Uma política define a forma do agente aprendiz se comportar em um dado momento: é um mapeamento entre os estados percebidos do ambiente e as ações a serem tomadas quando nesses estados. São associações estímulo-resposta. Políticas podem ser uma simples função ou uma tabela de pesquisa, ou envolver computação tão intensa quanto um processo de busca. A política é o cerne de um agente de Aprendizado por Reforço, na medida em que, por si só, é suficiente para determinar o comportamento. As políticas, vale ressaltar, podem ser estocásticas, especificando probabilidades para cada ação.

Um sinal de recompensa define o objetivo de um problema de Aprendizado por Reforço. A cada momento no tempo, o ambiente envia para o agente de Aprendizado Supervisionado um único número chamado a recompensa. O único objetivo do agente é maximizar, a longo prazo, a recompensa total que ele recebe. Destarte, o sinal define para o agente o que são boas e más ações, e constitui-se como a base primária para alterar a política.

Enquanto um sinal de recompensa indica o que é bom imediatamente, uma função de valor especifica o que é bom a longo prazo. Um valor é como uma quantidade total de recompensa que um agente pode esperar acumular ao longo do futuro, começando no estado atual. Ele indica quão desejável é um estado, a longo prazo, levando em conta os estados que provavelmente se seguirão e as recompensas disponíveis nesses estados. Assim, pode-se lidar com um estado que dá pouca recompensa imediata mas ainda assim possui alto valor, uma vez que é regularmente seguida por outros estados que dão maiores recompensas. Ou o contrário. O que importa saber é que, em certo sentido, as recompensas são primárias e os valores são secundários.

O quarto, e último elemento, presente em alguns sistemas de Aprendizado por Reforço, é um modelo do ambiente. É algo que imita o comportamento do ambiente, ou que permite que se façam inferências sobre como o ambiente se comportará. Modelos são usados para planejamento prévio de situações futuras.

Markov

Processos Decisórios de Markov são uma forma matematicamente idealizada do problema do Aprendizado por Reforço. Quando o Aprendizado por Reforço é formulado com probabilidades de transição bem definidas, constitui um Processo Decisório de Markov.

blog