深圳Yolo 视觉
深圳
立即加入
词汇表

深度强化学习

探索深度强化学习(DRL)及其如何将人工智能决策与深度学习相结合。立即学习如何Ultralytics 作为感知层。

深度强化学习(DRL)是人工智能(AI)的一个高级子集,它将强化学习的决策能力与深度学习(DL)的感知能力相结合。传统强化学习依赖表格方法将情境映射到动作,但在复杂或视觉化的环境中,这些方法往往力不从心。 DRL通过神经网络解析视频帧、传感器读数等高维输入数据,使机器无需人类显式指导,即可从原始经验中直接习得有效策略,从而突破了这一局限。

DRL的核心机制

在DRL系统中,人工智能代理以离散时间步长与环境交互。 每个时间步中,代理观察当前"状态",根据策略选择动作, 并接收指示该动作成败的奖励信号。其核心目标是 在时间维度上最大化累积奖励。

"深度"组件指的是利用深度神经网络来近似策略(行动方案)或价值函数(预估未来奖励)。这使智能体能够处理非结构化数据,通过计算机视觉(CV)技术像人类一样"观察"环境。该能力由PyTorch等框架提供支持。 PyTorchTensorFlow等框架提供支持,这些框架能有效促进复杂网络的训练过程。

实际应用

DRL已超越理论研究,在多个行业实现了具有实际影响力的应用:

  • 高级机器人技术:机器人人工智能领域,深度强化学习(DRL)使机器能够掌握难以硬编码的复杂运动技能。机器人可通过NVIDIA Sim等物理引擎中优化动作,学会抓取不规则物体或穿越崎岖地形。这通常需要先在合成数据上进行训练,再将策略部署到物理硬件上。
  • 自动驾驶: 自动驾驶车辆利用深度随机递归(DRL)技术 在不可预测的交通场景中做出实时决策。当 目标检测模型识别行人与路标时,DRL算法 会利用这些信息制定车道并线、交叉路口 导航及速度控制的安全驾驶策略,有效管理 保障安全所需的推理延迟

作为国家观察员的愿景

对于许多深度强化学习(DRL)应用而言,"状态"具有视觉属性。高速模型充当智能体的眼睛,将原始图像转换为结构化数据,供策略网络进行决策。下例展示了YOLO26模型如何作为智能体的感知层,从环境中提取观测信息(如障碍物计数)。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL 与相关概念的区别

将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:

  • 强化学习(RL) 标准强化学习是基础概念,但通常依赖查找表(如Q表),这在大状态空间中变得不切实际。深度强化学习通过使用深度学习来近似函数来解决这个问题,使其能够处理图像等复杂输入。
  • 基于人类反馈的强化学习(RLHF) 与通常优化数学定义奖励函数(如游戏得分)的直接强化学习(DRL)不同,RLHF通过人类主观偏好来优化模型——特别是大型语言模型(LLMs)——使AI行为与人类价值观保持一致,该技术由OpenAI等研究团队推广普及。
  • 无监督学习 无监督方法在没有明确反馈的情况下,从数据中寻找隐藏模式。相比之下,深度强化学习(DRL)具有目标导向性, 由奖励信号驱动,该信号能主动引导智能体朝着特定目标前进,正如萨顿和巴托的基础著作中所阐述的那样。

开发者若需管理深度强化学习系统感知层所需的数据集,可采用Ultralytics ,该Ultralytics 能简化标注与云端训练工作流。此外,研究人员常借助Gymnasium等标准化环境,将自身深度强化学习算法与既定基准进行基准测试。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入