Descubra o aprendizado por reforço, onde os agentes otimizam as ações por meio de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!
O Aprendizado por Reforço (AR) é um domínio do aprendizado de máquina (ML) onde um agente inteligente aprende a tomar decisões ideais por meio de tentativa e erro. Ao contrário de outros paradigmas de aprendizado, o agente não é informado sobre quais ações tomar. Em vez disso, ele interage com um ambiente e recebe feedback na forma de recompensas ou penalidades. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize sua recompensa cumulativa ao longo do tempo. Essa abordagem é inspirada na psicologia comportamental e é particularmente poderosa para resolver problemas de tomada de decisão sequencial, conforme descrito no texto fundamental de Sutton e Barto.
O processo de RL é modelado como um loop de feedback contínuo envolvendo vários componentes-chave:
O agente observa o estado atual do ambiente, executa uma ação e recebe uma recompensa juntamente com o próximo estado. Este ciclo se repete e, através desta experiência, o agente refina gradualmente sua política para favorecer ações que levam a recompensas de longo prazo mais elevadas. A estrutura formal para este problema é frequentemente descrita por um Processo de Decisão de Markov (MDP). Algoritmos de RL populares incluem Q-learning e Gradientes de Política.
O RL é distinto dos outros principais tipos de aprendizado de máquina:
O RL alcançou um sucesso notável em uma variedade de domínios complexos:
O Aprendizado por Reforço é um componente crucial do cenário mais amplo da Inteligência Artificial (IA), especialmente para a criação de sistemas autônomos. Embora empresas como a Ultralytics se especializem em modelos de visão de IA como o Ultralytics YOLO para tarefas como detecção de objetos e segmentação de instâncias usando aprendizado supervisionado, as capacidades de percepção desses modelos são entradas essenciais para agentes de AR.
Por exemplo, um robô pode usar um modelo YOLO para percepção, implementado através do Ultralytics HUB, para entender o seu ambiente (o "estado"). Uma política de RL usa então esta informação para decidir o seu próximo movimento. Esta sinergia entre a Visão Computacional (CV) para a percepção e o RL para a tomada de decisões é fundamental para a construção de sistemas inteligentes. Estes sistemas são frequentemente desenvolvidos utilizando frameworks como o PyTorch e o TensorFlow e são frequentemente testados em ambientes de simulação padronizados como o Gymnasium (anteriormente OpenAI Gym). Para melhorar o alinhamento do modelo com as preferências humanas, técnicas como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) também estão a tornar-se cada vez mais importantes na área. O progresso em RL é continuamente impulsionado por organizações como a DeepMind e conferências académicas como a NeurIPS.