Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Reinforcement Learning

Explore os conceitos fundamentais de Reinforcement Learning (RL). Aprenda como agentes usam feedback para dominar tarefas e veja como o Ultralytics YOLO26 impulsiona sistemas de visão RL.

O Aprendizado por Reforço (RL, do inglês Reinforcement Learning) é um subconjunto de machine learning (ML) orientado a objetivos, onde um sistema autônomo, conhecido como agente, aprende a tomar decisões executando ações e recebendo feedback do seu ambiente. Diferente do supervised learning, que depende de conjuntos de dados estáticos rotulados com as respostas corretas, os algoritmos de RL aprendem através de um processo dinâmico de tentativa e erro. O agente interage com uma simulação ou com o mundo real, observando as consequências de suas ações para determinar quais estratégias produzem as maiores recompensas a longo prazo. Esta abordagem imita de perto o conceito psicológico de operant conditioning, onde o comportamento é moldado por reforço positivo (recompensas) e reforço negativo (punições) ao longo do tempo.

Link to this sectionConceitos Principais do Ciclo de RL#

Para entender como o RL funciona, é útil visualizá-lo como um ciclo contínuo de interação. Esta estrutura é frequentemente formalizada matematicamente como um Markov Decision Process (MDP), que organiza a tomada de decisão em situações onde os resultados são parcialmente aleatórios e parcialmente controlados por quem toma a decisão.

Os principais componentes deste ciclo de aprendizado incluem:

  • AI Agent: A entidade responsável por aprender e tomar decisões. Ela percebe o ambiente e executa ações para maximizar seu sucesso cumulativo.
  • Ambiente: O mundo externo no qual o agente opera. Pode ser um videogame complexo, uma simulação de mercado financeiro ou um armazém físico em AI in logistics.
  • Estado: Um instantâneo ou representação da situação atual. Em aplicações visuais, isso envolve frequentemente o processamento de feeds de câmera usando computer vision (CV) para detectar objetos e obstáculos.
  • Ação: O movimento ou escolha específica que o agente faz. O conjunto completo de todos os movimentos possíveis é referido como o action space.
  • Recompensa: Um sinal numérico enviado do ambiente para o agente após uma ação. Uma reward function bem projetada atribui valores positivos para ações benéficas e penalidades para as prejudiciais.
  • Política: A estratégia ou conjunto de regras que o agente usa para determinar a próxima ação com base no estado atual. Algoritmos como Q-learning definem como essa política é atualizada e otimizada.

Link to this sectionAplicações no Mundo Real#

O aprendizado por reforço saiu da pesquisa teórica para implementações práticas de alto impacto em vários setores.

  • Robótica Avançada: No campo de AI in robotics, o RL permite que máquinas dominem habilidades motoras complexas que são difíceis de codificar manualmente. Robôs podem aprender a agarrar objetos irregulares ou navegar em terrenos irregulares treinando dentro de motores de física como o NVIDIA Isaac Sim antes da implementação no mundo real.
  • Sistemas Autônomos: Autonomous vehicles utilizam RL para tomar decisões em tempo real em cenários de tráfego imprevisíveis. Enquanto modelos de object detection identificam pedestres e placas, algoritmos de RL ajudam a determinar políticas de direção seguras para mudança de faixa e navegação em cruzamentos.
  • Otimização Estratégica: O RL ganhou atenção global quando sistemas como o Google DeepMind's AlphaGo derrotaram campeões mundiais humanos em jogos de tabuleiro complexos. Além dos jogos, esses agentes otimizam a logística industrial, como o controle de sistemas de refrigeração em centros de dados para reduzir o consumo de energia.

Link to this sectionIntegrando Visão com RL#

Em muitas aplicações modernas, o "estado" que um agente observa é visual. Modelos de alto desempenho como o YOLO26 atuam como a camada de percepção para agentes de RL, convertendo imagens brutas em dados estruturados. Essas informações processadas — como a localização e a classe dos objetos — tornam-se o estado que a política de RL usa para escolher uma ação.

O exemplo a seguir demonstra como usar o pacote ultralytics para processar um quadro de ambiente, criando uma representação de estado (por exemplo, número de objetos) para um ciclo de RL teórico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this sectionDiferenciando Termos Relacionados#

É importante distinguir o Aprendizado por Reforço de outros paradigmas de machine learning:

  • vs. Supervised Learning: O aprendizado supervisionado requer um supervisor externo conhecedor para fornecer dados de treinamento rotulados (por exemplo, "esta imagem contém um gato"). Em contraste, o RL aprende com as consequências de suas próprias ações sem rótulos explícitos, descobrindo caminhos ideais através da exploração.
  • vs. Unsupervised Learning: O aprendizado não supervisionado foca em encontrar estruturas ou padrões ocultos dentro de dados não rotulados (como o agrupamento de clientes). O RL difere porque é explicitamente orientado a objetivos, focando em maximizar um sinal de recompensa em vez de apenas descrever a estrutura dos dados.

À medida que o poder computacional aumenta, técnicas como Reinforcement Learning from Human Feedback (RLHF) estão refinando ainda mais a forma como os agentes aprendem, alinhando seus objetivos mais estreitamente com valores humanos complexos e padrões de segurança. Pesquisadores costumam usar ambientes padronizados como o Gymnasium para testar e melhorar esses algoritmos. Para equipes que buscam gerenciar os conjuntos de dados necessários para as camadas de percepção desses agentes, a Ultralytics Platform oferece ferramentas abrangentes para anotação e gerenciamento de modelos.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática