Deep Reinforcement Learning
探索深度强化学习 (DRL) 以及它如何将 AI 决策与深度学习相结合。学习今天将 Ultralytics YOLO26 用作感知层。
深度强化学习 (DRL) 是 人工智能 (AI) 的一个高级子集,它结合了 强化学习 的决策能力与 深度学习 (DL) 的感知能力。传统的强化学习依赖表格方法将情境映射到动作,但在环境复杂或涉及视觉时,这些方法会遇到困难。DRL 通过使用 神经网络 来解释高维输入数据(如视频帧或传感器读数)解决了这一问题,使机器能够在无需人工明确指导的情况下,直接从原始经验中学习有效的策略。
Link to this sectionDRL 的核心机制#
在 DRL 系统中,AI 智能体 在离散的时间步中与环境进行交互。在每个步骤中,智能体观察当前的“状态”,根据策略选择一个动作,并接收一个表示该动作成功或失败的奖励信号。其主要目标是最大化随时间推移的累积奖励。
“深度”部分指的是使用深度神经网络来近似策略(行动策略)或价值函数(预期的未来奖励)。这使得智能体能够处理非结构化数据,利用 计算机视觉 (CV) 像人类一样“观察”环境。这一能力由 PyTorch 或 TensorFlow 等框架驱动,这些框架促进了复杂网络的训练。
Link to this section实际应用#
DRL 已超越理论研究,在各行各业中实现了具有高影响力的实际应用:
- 高级机器人: 在 机器人 AI 领域,DRL 使机器能够掌握难以通过硬编码实现的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim 等物理引擎中优化其动作,学习抓取不规则物体或在崎岖地形上行走。这通常涉及在将策略部署到物理硬件之前,先使用 合成数据 进行训练。
- 自动驾驶: 自动驾驶车辆 利用 DRL 在不可预测的交通场景中做出实时决策。虽然 目标检测 模型可以识别行人和标志,但 DRL 算法会利用这些信息来确定车道合并、交叉路口导航和速度控制的安全驾驶策略,有效地管理安全所需的 推理延迟。
Link to this section视觉作为状态观察者#
对于许多 DRL 应用而言,“状态”是视觉化的。高速模型充当智能体的眼睛,将原始图像转换为策略网络可以处理的结构化数据。以下示例说明了 YOLO26 模型如何作为智能体的感知层,从环境中提取观测结果(例如,障碍物数量)。
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")Link to this section区分 DRL 与相关概念#
为了理解深度强化学习在 AI 领域中的独特地位,区分它与相似术语是很有帮助的:
- 强化学习 (RL): 标准的 RL 是基础概念,但通常依赖查找表(如 Q-table),这在处理大型状态空间时变得不切实际。DRL 通过使用深度学习来近似函数解决了这个问题,使其能够处理图像等复杂输入。
- 人类反馈强化学习 (RLHF): 虽然 DRL 通常针对数学定义的奖励函数(例如游戏中的分数)进行优化,但 RLHF 使用主观的人类偏好来精炼模型——特别是 大语言模型 (LLM)——以使 AI 行为与人类价值观保持一致,这是一种由 OpenAI 等研究小组推广的技术。
- 无监督学习: 无监督学习方法在没有明确反馈的情况下寻找数据中的隐藏模式。相比之下,DRL 是面向目标的,由奖励信号驱动,该信号会积极引导智能体达成特定目标,正如 Sutton and Barto 的基础著作中所讨论的那样。
寻求管理 DRL 系统感知层所需数据集的开发者,可以使用 Ultralytics Platform,它简化了标注和云训练的工作流程。此外,研究人员经常使用 Gymnasium 等标准化环境,根据既定基准来评估他们的 DRL 算法。






