深圳Yolo 视觉
深圳
立即加入
词汇表

深度强化学习

探索深度强化学习的强大功能——人工智能学习复杂行为,以解决游戏、机器人、医疗保健等领域的挑战。

深度强化学习(DRL)是机器学习(ML)的一个高级子领域。 深度强化学习(DRL)是机器学习(ML)的高级子领域,它结合了 决策框架 强化学习与深度学习(DL)强大的 深度学习(DL)的强大感知能力。 传统的强化学习依靠试错来优化简单环境中的行为,而 DRL 则整合了多层神经网络,以 解释高维感知数据,如视频帧或复杂的传感器读数。这种整合使 人工智能代理学习复杂的策略,以解决 解决动态、非结构化环境中的棘手问题,包括自主导航和战略游戏。 游戏。

深度强化学习的机制

DRL 的核心是一个代理与其环境之间的互动,通常用数学模型表示为 马尔可夫决策过程(MDP)。与 监督学习不同,在监督学习中,模型是 与监督式学习不同,监督式学习是在已知正确答案的标注数据集上训练模型,而 DRL Agent 通过探索来学习。它观察当前状态,采取行动,并接收反馈信号,即 "奖励"。 "奖励"。

为了处理复杂的输入,DRL 采用了 卷积神经网络 (CNN) 或其他深度架构来近似计算特定操作的价值。通过 反向传播梯度下降等过程,网络会调整其 模型权重,以最大化一段时间内的累积奖励。 最大化。这些算法包括 深度 Q 网络(DQN)和 近端策略优化(PPO) 等算法有助于稳定这一训练过程,使代理能够将其学习推广到新的、未见过的情况中。 情况。

实际应用

DRL 的多功能性为各行各业带来了变革性的应用:

  • 先进机器人技术:在机器人人工智能领域 在机器人人工智能领域,DRL 可让机器掌握 复杂的运动技能。例如,机器人可以通过 在物理模拟环境中不断改进自己的动作,如 NVIDIA Isaac Sim.
  • 自主系统: 自动驾驶汽车利用 DRL 在不可预测的交通状况下做出实时决策。通过处理来自激光雷达和摄像头的输入,这些系统可学习车道并线和交叉路口导航的安全驾驶策略。 车道并线和交叉路口导航的安全驾驶策略,通常利用计算机视觉(CV 计算机视觉 (CV)来解析视觉场景。 场景。
  • 战略游戏:当 DeepMind 的 AlphaGo DeepMind 的 AlphaGo等系统击败人类世界冠军时,DRL 一举成名。这些 代理在模拟中探索了数百万个潜在策略,发现了超越人类直觉的新战术。 直觉。

将计算机视觉整合为状态观测器

在许多 DRL 应用中,"状态 "代表视觉信息。高速 物体检测模型可以充当 将原始像素转换成策略网络可以采取行动的结构化数据。

下面的示例说明了 YOLO11可用于 提取 DRL 代理的状态观测值:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL 与相关概念的区别

将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:

  • 强化学习(RL) 标准 RL 是基础概念,但通常依赖于查找表(如 Q 表),这对于大的状态空间来说是不切实际的。 对于大型状态空间来说并不实用。DRL 通过使用 深度学习来近似策略,从而 处理图像等复杂输入。
  • 从人类反馈中强化学习(RLHF) DRL 通常是针对数学定义的奖励函数(如游戏中的积分)进行优化,而 RLHF 则是完善 模型,特别是 大型语言模型(LLM)--利用 而 RLHF 则是利用人类的主观偏好来完善模型,使人工智能的行为符合人类的价值观。
  • 无监督学习 无监督方法在没有明确反馈的情况下寻找数据中隐藏的模式。相比之下,DRL 以目标为导向、 DRL 以目标为导向,由奖励信号驱动,引导代理朝着特定目标前进。

工具和框架

开发 DRL 系统需要强大的软件生态系统。研究人员依赖于以下框架 PyTorchTensorFlow来构建底层神经网络。 它们通常与标准接口库结合使用,如 Gymnasium(前身为 OpenAI Gym)等标准接口库。 这些库提供了一系列用于测试和基准测试算法的环境。训练这些模型的计算量很大,通常 需要高性能GPU来 处理收敛所需的数百万个模拟步骤。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入