Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Aprendizado por Reforço

Descubra o aprendizado por reforço, onde os agentes otimizam as ações por meio de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!

O Aprendizado por Reforço (AR) é um domínio do aprendizado de máquina (ML) onde um agente inteligente aprende a tomar decisões ideais por meio de tentativa e erro. Ao contrário de outros paradigmas de aprendizado, o agente não é informado sobre quais ações tomar. Em vez disso, ele interage com um ambiente e recebe feedback na forma de recompensas ou penalidades. O objetivo fundamental do agente é aprender uma estratégia, conhecida como política, que maximize sua recompensa cumulativa ao longo do tempo. Essa abordagem é inspirada na psicologia comportamental e é particularmente poderosa para resolver problemas de tomada de decisão sequencial, conforme descrito no texto fundamental de Sutton e Barto.

Como Funciona o Aprendizado por Reforço

O processo de RL é modelado como um loop de feedback contínuo envolvendo vários componentes-chave:

  • Agente: O aprendiz e tomador de decisões, como um robô ou um programa de jogos.
  • Ambiente: O mundo externo com o qual o agente interage.
  • Estado: Um snapshot do ambiente em um momento específico, fornecendo ao agente as informações de que ele precisa para tomar uma decisão.
  • Ação: Um movimento selecionado pelo agente a partir de um conjunto de opções possíveis.
  • Recompensa: Um sinal numérico enviado do ambiente para o agente após cada ação, indicando o quão desejável foi a ação.

O agente observa o estado atual do ambiente, executa uma ação e recebe uma recompensa juntamente com o próximo estado. Este ciclo se repete e, através desta experiência, o agente refina gradualmente sua política para favorecer ações que levam a recompensas de longo prazo mais elevadas. A estrutura formal para este problema é frequentemente descrita por um Processo de Decisão de Markov (MDP). Algoritmos de RL populares incluem Q-learning e Gradientes de Política.

Comparação com Outros Paradigmas de Aprendizagem

O RL é distinto dos outros principais tipos de aprendizado de máquina:

Aplicações no Mundo Real

O RL alcançou um sucesso notável em uma variedade de domínios complexos:

  • Jogos: Agentes de RL alcançaram desempenho sobre-humano em jogos complexos. Um exemplo proeminente é o AlphaGo da DeepMind, que aprendeu a derrotar os melhores jogadores de Go do mundo. Outro é o trabalho da OpenAI em Dota 2, onde um agente aprendeu estratégias complexas de equipe.
  • Robótica: O RL é usado para treinar robôs para realizar tarefas complexas, como manipulação de objetos, montagem e locomoção. Em vez de serem explicitamente programados, um robô pode aprender a andar ou agarrar objetos sendo recompensado por tentativas bem-sucedidas em um ambiente simulado ou real. Esta é uma área chave de pesquisa em instituições como o Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Gestão de Recursos: Otimização de operações em sistemas complexos, como gestão do fluxo de tráfego em cidades, balanceamento de carga em redes de energia e otimização de reações químicas.
  • Sistemas de Recomendação: O RL pode ser usado para otimizar a sequência de itens recomendados a um usuário para maximizar o engajamento e a satisfação a longo prazo, em vez de apenas cliques imediatos.

Relevância no Ecossistema de IA

O Aprendizado por Reforço é um componente crucial do cenário mais amplo da Inteligência Artificial (IA), especialmente para a criação de sistemas autônomos. Embora empresas como a Ultralytics se especializem em modelos de visão de IA como o Ultralytics YOLO para tarefas como detecção de objetos e segmentação de instâncias usando aprendizado supervisionado, as capacidades de percepção desses modelos são entradas essenciais para agentes de AR.

Por exemplo, um robô pode usar um modelo YOLO para percepção, implementado através do Ultralytics HUB, para entender o seu ambiente (o "estado"). Uma política de RL usa então esta informação para decidir o seu próximo movimento. Esta sinergia entre a Visão Computacional (CV) para a percepção e o RL para a tomada de decisões é fundamental para a construção de sistemas inteligentes. Estes sistemas são frequentemente desenvolvidos utilizando frameworks como o PyTorch e o TensorFlow e são frequentemente testados em ambientes de simulação padronizados como o Gymnasium (anteriormente OpenAI Gym). Para melhorar o alinhamento do modelo com as preferências humanas, técnicas como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) também estão a tornar-se cada vez mais importantes na área. O progresso em RL é continuamente impulsionado por organizações como a DeepMind e conferências académicas como a NeurIPS.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência