深圳Yolo 视觉
深圳
立即加入
词汇表

深度强化学习

探索深度强化学习 (DRL) 及其如何将 AI 决策与深度学习相结合。立即学习如何将 Ultralytics YOLO26 用作感知层。

深度强化学习 (DRL) 是人工智能 (AI)的一个高级子集,它结合了强化学习的决策能力与深度学习 (DL)的感知能力。传统强化学习依赖表格方法将情境映射到行动,但当环境复杂或涉及视觉时,这些方法会遇到困难。DRL通过使用神经网络来解释高维输入数据(例如视频帧或传感器读数)克服了这一问题,使机器能够直接从原始经验中学习有效策略,而无需明确的人工指令。

DRL 的核心机制

在DRL系统中,AI智能体在离散时间步长中与环境交互。在每个步骤中,智能体观察当前“状态”,根据策略选择一个行动,并接收一个指示该行动成功或失败的奖励信号。主要目标是最大化随时间累积的奖励。

“深度”组件指的是使用深度神经网络来近似策略(行动策略)或价值函数(估计的未来奖励)。这使得代理能够处理非结构化数据,利用计算机视觉 (CV)来“看”环境,就像人类一样。这种能力由PyTorchTensorFlow等框架提供支持,这些框架有助于这些复杂网络的训练。

实际应用

DRL已超越理论研究,进入了跨越各个行业的实际、高影响力的应用:

  • 高级机器人技术:机器人AI领域,深度强化学习(DRL)使机器能够掌握难以硬编码的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim等物理引擎中优化其运动,学习抓取不规则物体或穿越崎岖地形。这通常涉及在 合成数据上进行训练,然后将策略部署到物理硬件。
  • 自动驾驶:Autonomous vehicles 利用 DRL 在不可预测的交通场景中做出实时决策。虽然 object detection 模型识别行人与标志,但 DRL 算法利用这些信息来确定车道合并、交叉路口导航和速度控制的安全驾驶策略,有效管理安全所需的 inference latency

作为国家观察员的愿景

对于许多DRL应用,“状态”是视觉的。高速模型充当智能体的“眼睛”,将原始图像转换为策略网络可以操作的结构化数据。以下示例说明了YOLO26模型如何作为智能体的感知层,从环境中提取观察结果(例如,障碍物数量)。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL 与相关概念的区别

将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:

  • 强化学习 (RL): 标准强化学习是基础概念,但通常依赖于查找表(如Q表),这对于大型状态空间而言不切实际。深度强化学习通过使用深度学习来近似函数解决此问题,使其能够处理图像等复杂输入。
  • 基于人类反馈的强化学习 (RLHF): 尽管深度强化学习通常针对数学定义的奖励函数(例如游戏中的得分)进行优化,但 RLHF 利用主观人类偏好来改进模型——特别是 大型语言模型 (LLMs)——以使 AI 行为与人类价值观保持一致,这种技术由 OpenAI 等研究团体推广。
  • 无监督学习 无监督方法在没有明确反馈的情况下,从数据中寻找隐藏模式。相比之下,深度强化学习(DRL)具有目标导向性, 由奖励信号驱动,该信号能主动引导智能体朝着特定目标前进,正如萨顿和巴托的基础著作中所阐述的那样。

希望管理DRL系统感知层所需数据集的开发者可以利用Ultralytics Platform,该平台简化了标注和云训练工作流程。此外,研究人员经常使用Gymnasium等标准化环境,以根据既定基线对DRL算法进行基准测试。

让我们一起共建AI的未来!

开启您的机器学习未来之旅