Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Aprendizado por Reforço

Explore os conceitos fundamentais da aprendizagem por reforço (RL). Saiba como os agentes usam o feedback para dominar tarefas e veja como Ultralytics potencializa os sistemas de visão RL.

A aprendizagem por reforço (RL) é um subconjunto orientado para objetivos da aprendizagem automática (ML), em que um sistema autónomo , conhecido como agente, aprende a tomar decisões realizando ações e recebendo feedback do seu ambiente. Ao contrário da aprendizagem supervisionada, que se baseia em conjuntos de dados estáticos rotulados com as respostas corretas, os algoritmos de RL aprendem através de um processo dinâmico de tentativa e erro. O agente interage com uma simulação ou com o mundo real, observando as consequências das suas ações para determinar quais estratégias produzem as maiores recompensas a longo prazo. Esta abordagem imita de perto o conceito psicológico de condicionamento operante, em que o comportamento é moldado por reforço positivo (recompensas) e reforço negativo (punições) ao longo do tempo.

Conceitos fundamentais do ciclo RL

Para entender como funciona o RL, é útil visualizá-lo como um ciclo contínuo de interação. Essa estrutura é frequentemente formalizada matematicamente como um Processo de Decisão de Markov (MDP), que estrutura a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente controlados pelo tomador de decisão.

Os principais componentes deste ciclo de aprendizagem incluem:

  • Agente de IA: A entidade responsável por aprender e tomar decisões. Ela percebe o ambiente e toma medidas para maximizar o seu sucesso cumulativo.
  • Ambiente: O mundo externo no qual o agente opera. Pode ser um videogame complexo, uma simulação do mercado financeiro ou um armazém físico em IA na logística.
  • Estado: Um instantâneo ou representação da situação atual. Em aplicações visuais, isso geralmente envolve o processamento de imagens de câmaras usando visão computacional (CV) para detect e obstáculos.
  • Ação: O movimento ou escolha específica que o agente faz. O conjunto completo de todos os movimentos possíveis é referido como o espaço de ação.
  • Recompensa: Um sinal numérico enviado do ambiente para o agente após uma ação. Uma função de recompensa bem concebida atribui valores positivos a ações benéficas e penalizações a ações prejudiciais.
  • Política: A estratégia ou conjunto de regras que o agente usa para determinar a próxima ação com base no estado atual. Algoritmos como o Q-learning definem como essa política é atualizada e otimizada.

Aplicações no Mundo Real

A aprendizagem por reforço ultrapassou a fase de investigação teórica e passou a ser aplicada de forma prática e com grande impacto em vários setores.

  • Robótica avançada: No campo da IA em robótica, o RL permite que as máquinas dominem habilidades motoras complexas que são difíceis de codificar. Os robôs podem aprender a segurar objetos irregulares ou navegar em terrenos acidentados através de treino em motores físicos como o NVIDIA Sim antes de serem implantados no mundo real.
  • Sistemas autônomos: Os veículos autônomos utilizam RL para tomar decisões em tempo real em cenários de trânsito imprevisíveis. Enquanto os modelos de detecção de objetos identificam pedestres e sinais, os algoritmos RL ajudam a determinar políticas de direção segura para convergência de faixas e navegação em cruzamentos.
  • Otimização estratégica: RL ganhou atenção global quando sistemas como o AlphaGo,Google , derrotaram campeões mundiais humanos em jogos de tabuleiro complexos. Além dos jogos, esses agentes otimizam a logística industrial, como o controlo de sistemas de refrigeração em centros de dados para reduzir o consumo de energia.

Integrando a visão com RL

Em muitas aplicações modernas, o «estado» que um agente observa é visual. Modelos de alto desempenho como o YOLO26 atuam como camada de percepção para agentes RL, convertendo imagens brutas em dados estruturados. Essas informações processadas — como a localização e a classe dos objetos — tornam-se o estado que a política RL usa para escolher uma ação.

O exemplo a seguir demonstra como usar o ultralytics pacote para processar um quadro de ambiente, criando uma representação de estado (por exemplo, número de objetos) para um loop RL teórico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Diferenciação de termos relacionados

É importante distinguir a aprendizagem por reforço de outros paradigmas de aprendizagem automática:

  • vs. Aprendizagem supervisionada: A aprendizagem supervisionada requer um supervisor externo experiente para fornecer dados de treino rotulados (por exemplo, «esta imagem contém um gato»). Em contrapartida, a RL aprende com as consequências das suas próprias ações sem rótulos explícitos , descobrindo caminhos ótimos através da exploração.
  • vs. Aprendizagem não supervisionada: A aprendizagem não supervisionada concentra-se em encontrar estruturas ou padrões ocultos em dados não rotulados (como agrupamento de clientes). A RL difere porque é explicitamente orientada para objetivos, concentrando-se em maximizar um sinal de recompensa, em vez de apenas descrever a estrutura dos dados.

À medida que o poder computacional aumenta, técnicas como Aprendizagem por Reforço a partir do Feedback Humano (RLHF) estão a refinar ainda mais a forma como os agentes aprendem, alinhando os seus objetivos mais estreitamente com valores humanos complexos e padrões de segurança . Os investigadores costumam usar ambientes padronizados, como o Gymnasium, para comparar e melhorar esses algoritmos. Para equipas que desejam gerir os conjuntos de dados necessários para as camadas de percepção desses agentes, a Ultralytics oferece ferramentas abrangentes para anotação e gestão de modelos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora