Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Aprendizado por Reforço

Descubra o aprendizado por reforço, onde os agentes otimizam as ações por meio de tentativa e erro para maximizar as recompensas. Explore conceitos, aplicações e benefícios!

A aprendizagem por reforço (RL) é um subconjunto dinâmico da aprendizagem automática (AM) centrada no ensino de um agente autónomo de IA como tomar decisões óptimas através de tentativa e erro. Ao contrário de outros paradigmas de aprendizagem que se baseiam em conjuntos de dados estáticos, a RL envolve um agente que interage com um ambiente dinâmico para atingir um objetivo específico. O agente recebe feedback sob a forma de prémios ou penalizações com base nas suas O agente recebe feedback sob a forma de recompensas ou penalizações com base nas suas acções, aperfeiçoando gradualmente a sua estratégia para maximizar a recompensa acumulada ao longo do tempo. Este processo reflecte o conceito de condicionamento operante da psicologia comportamental, em que os comportamentos são reforçados pelas consequências.

Conceitos fundamentais e mecânica

A estrutura da Aprendizagem por Reforço é frequentemente descrita matematicamente como um Processo de Decisão de Markov (MDP). Para Para compreender o funcionamento deste ciclo, é útil decompor os principais componentes envolvidos no ciclo de aprendizagem:

  • Agente de IA: O aprendiz ou decisor que percebe o ambiente e executa acções.
  • Ambiente: O mundo físico ou virtual em que o agente actua. No contexto da IA nos jogos de vídeo, este é o mundo do jogo; na robótica, é o espaço físico.
  • Estado: Uma imagem instantânea da situação atual fornecida ao agente. Isto envolve frequentemente sensoriais, tais como dados de sistemas de visão por computador (CV).
  • Ação: O movimento específico ou decisão tomada pelo agente. O conjunto de todos os movimentos possíveis é designado por o espaço de ação.
  • Recompensa: Um sinal numérico recebido do ambiente após a realização de uma ação. As recompensas positivas encorajam o comportamento, enquanto as recompensas negativas (penalizações) o desencorajam.
  • Política: A estratégia ou conjunto de regras que o agente emprega para determinar a próxima ação com base no estado atual.

Aplicações reais da aprendizagem por reforço

A RL ultrapassou a investigação teórica e está agora a alimentar sistemas complexos do mundo real em várias indústrias.

  • IA na robótica: No fabrico e na logística, os robôs utilizam a RL para aprender tarefas de manipulação complexas, como agarrar objectos de formas variadas. Em vez de codificar todos os movimentos, o robô aprende a ajustar a sua preensão com base no feedback físico, melhorando significativamente a eficiência nos processos de fabrico e logística. melhorando significativamente a eficiência em ambientes de fabrico inteligentes.
  • Veículos autónomos: Os veículos autónomos utilizam a RL para tomar decisões de condução de alto nível. Enquanto os modelos de deteção de objectos identificam peões e sinais, os algoritmos de RL ajudam a determinar as manobras mais seguras e eficientes, tais como quando entrar no trânsito ou como navegar num cruzamento movimentado.
  • Controlo de tráfego: Os planeadores urbanos utilizam a RL para otimizar a temporização dos sinais de trânsito. Ao tratar o fluxo de tráfego Ao tratar o fluxo de tráfego como uma função de recompensa, os sistemas podem adaptar-se dinamicamente para reduzir o congestionamento, uma componente chave da IA na gestão do tráfego.

Aprendizagem por reforço vs. termos relacionados

É importante distinguir a RL de outras abordagens de aprendizagem automática, uma vez que as suas metodologias de formação diferem significativamente.

  • Aprendizagem supervisionada: Este método método baseia-se num conjunto de dados de treino que contém inputs emparelhados com outputs corretos (etiquetas). O modelo aprende minimizando o erro entre a sua previsão e o rótulo rótulo conhecido. Em contraste, a RL não tem acesso a respostas "corretas" de antemão; tem de as descobrir através da interação.
  • Aprendizagem não supervisionada: Trata-se de encontrar padrões ou estruturas ocultas em dados não rotulados, como o agrupamento de clientes através de k-means clustering. A RL difere porque o seu objetivo é maximizar um sinal de recompensa e não apenas analisar a distribuição de dados.
  • Aprendizagem por reforço profundo (DRL): Enquanto a RL define o paradigma de aprendizagem, a DRL combina-o com a aprendizagem profunda. Na DRL, redes neurais são utilizadas para aproximar a política ou função de valor, permitindo ao agente lidar com entradas de elevada dimensão, como pixéis de imagens em bruto.

Integração da visão computacional com RL

Em muitas aplicações, o "estado" que um agente observa é visual. Modelos de visão de alto desempenho como YOLO11 são frequentemente utilizados como camada de perceção para agentes de RL para agentes de RL. O modelo de visão processa a cena para detect objectos, e esta informação estruturada é transmitida ao agente de RL para decidir a próxima ação.

O exemplo seguinte demonstra como utilizar um modelo YOLO para gerar o estado (objectos detectados) que pode ser introduzido num ciclo de decisão de RL.

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

Para explorar a escala destes conceitos, os investigadores utilizam frequentemente ambientes como o OpenAI Gym (agora Gymnasium) para padronizar o teste de algoritmos de RL. À medida que poder computacional aumenta, técnicas como a Aprendizagem por reforço a partir de feedback humano (RLHF) estão a aperfeiçoar ainda mais a forma como os agentes se alinham com os valores humanos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora