Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Deep Reinforcement Learning

Descubra o poder do deep reinforcement learning—onde a IA aprende comportamentos complexos para resolver desafios em jogos, robótica, saúde e muito mais.

A Aprendizagem por Reforço Profundo (DRL) é um subcampo avançado da aprendizagem automática (ML) que combina os estruturas de tomada de decisão da de decisão da aprendizagem por reforço com as poderosas capacidades de perceção da aprendizagem profunda (DL). Enquanto a aprendizagem por reforço tradicional se baseia na tentativa e erro para otimizar o comportamento em ambientes simples, a DRL integra redes neuronais multi-camadas para para interpretar dados sensoriais de elevada dimensão, como fotogramas de vídeo ou leituras de sensores complexos. Esta integração permite a um agente de agente de IA aprenda estratégias sofisticadas para resolver para resolver problemas intratáveis em ambientes dinâmicos e não estruturados, desde a navegação autónoma até ao jogo estratégico. estratégicos.

A mecânica da aprendizagem profunda por reforço

No centro do DRL está a interação entre um agente e o seu ambiente, frequentemente modelado matematicamente como um processo de decisão de Markov (MDP). Ao contrário da aprendizagem supervisionada, em que um modelo é treinado num conjunto de dados rotulados com respostas corretas conhecidas, um agente DRL aprende explorando. Observa o estado atual, toma uma ação e recebe um sinal de feedback conhecido como "recompensa". "recompensa".

Para tratar entradas complexas, a DRL utiliza redes neuronais convolucionais (CNN) ou outras arquitecturas profundas para aproximar o valor de acções específicas. Através de processos como retropropagação e e descida de gradiente, a rede ajusta os seus pesos do modelo para maximizar as recompensas acumuladas ao longo do tempo. Algoritmos como Redes Q profundas (DQN) e Otimização da Política Proximal (PPO) são fundamentais para estabilizar este processo de formação, permitindo que os agentes generalizem a sua aprendizagem a situações novas e inéditas. situações inéditas.

Aplicações no Mundo Real

A versatilidade da DRL conduziu a aplicações transformadoras em vários sectores:

  • Robótica avançada: No domínio da IA na robótica, a DRL permite que as máquinas dominem capacidades motoras complexas. Por exemplo, os robôs podem aprender a manipular objectos ou a caminhar em terrenos irregulares aperfeiçoando continuamente os seus movimentos com base em ambientes de simulação física como o NVIDIA Isaac Sim.
  • Sistemas autónomos: Os veículos autónomos utilizam o DRL para tomar decisões em tempo real num tráfego imprevisível. Ao processar os dados do LiDAR e das câmaras, estes sistemas aprendem políticas de condução políticas de condução segura para a fusão de faixas e navegação em cruzamentos, utilizando frequentemente visão por computador (CV) para analisar o cenário visual visual.
  • Jogo estratégico: A DRL alcançou fama mundial quando sistemas como o AlphaGo da DeepMind derrotaram campeões mundiais humanos. Estes agentes exploram milhões de estratégias potenciais em simulação, descobrindo novas tácticas que ultrapassam a intuição humana.

Integração da visão computacional como observador de estado

Para muitas aplicações DRL, o "estado" representa informação visual. Os modelos de deteção de objectos modelos de deteção de objectos a alta velocidade podem servir como os olhos do do agente, convertendo pixéis brutos em dados estruturados sobre os quais a rede de políticas pode atuar.

O exemplo seguinte ilustra como YOLO11 pode ser utilizado para extrair observações de estado para um agente DRL:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinção entre DRL e conceitos relacionados

É útil diferenciar a Aprendizagem por Reforço Profundo de termos semelhantes para compreender a sua posição única no panorama da cenário da IA:

  • Aprendizagem por reforço (RL): O RL padrão é o conceito fundamental, mas muitas vezes depende de tabelas de pesquisa (como tabelas Q) que se tornam impraticáveis para grandes espaços de estados. O DRL resolve isso usando aprendizagem profunda para aproximar políticas, permitindo políticas, permitindo-lhe lidar com entradas complexas como imagens.
  • Aprendizagem por reforço com base no feedback humano (RLHF): Enquanto a DRL optimiza normalmente uma função de recompensa definida matematicamente (por exemplo, pontos num jogo), a RLHF aperfeiçoa modelos - especificamente Modelos de Linguagem Grandes (LLMs) - utilizando preferências humanas subjectivas para alinhar o comportamento da IA com os valores humanos.
  • Aprendizagem não supervisionada: Os métodos não supervisionados procuram padrões ocultos nos dados sem feedback explícito. Em contrapartida, a DRL é orientada para objectivos, orientado por um sinal de recompensa que guia o agente para um objetivo específico.

Ferramentas e Frameworks

O desenvolvimento de sistemas DRL exige ecossistemas de software robustos. Os investigadores confiam em estruturas como PyTorch e TensorFlow para construir as redes neuronais subjacentes. Estes são frequentemente associados a bibliotecas de interface padrão como Gymnasium (anteriormente OpenAI Gym), que fornecem uma coleção de ambientes ambientes para testar e aferir algoritmos. O treino destes modelos é computacionalmente intensivo, muitas vezes que requerem GPUs de elevado desempenho para para lidar com os milhões de passos de simulação necessários para a convergência.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora