深圳尤洛视觉
深圳
立即加入
词汇表

深度强化学习

探索深度强化学习的强大功能——人工智能学习复杂行为,以解决游戏、机器人、医疗保健等领域的挑战。

深度强化学习 (DRL) 是 机器学习 (ML) 的一个子领域,它结合了强化学习 (RL)的原理和深度学习 (DL)的力量。它使 AI 代理能够通过在复杂的高维环境中反复试验来学习最佳决策策略。通过使用深度神经网络,DRL 模型可以处理原始感官输入(如图像中的像素或传感器数据),而无需手动进行特征工程。这使他们能够解决以前传统 RL 方法难以处理的问题。

深度强化学习如何运作

在一个典型的 DRL 设置中,智能体在一系列时间步长内与环境交互。在每个步骤中,智能体观察环境的状态,采取行动,并获得奖励或惩罚。目标是学习一种策略(一种选择行动的策略),以最大化随时间的总累积奖励。“深度”DRL 来自于使用深度神经网络来近似策略本身或估计状态或行动的期望值的值函数。该网络使用诸如梯度下降之类的算法进行训练,以根据收到的奖励调整其模型权重。整个过程使用马尔可夫决策过程 (MDP)进行形式化,该过程为建模顺序决策提供了数学基础。

与其他概念的区别

区分 DRL 与相关术语非常重要:

  • 强化学习 (RL): DRL 是 RL 的一种现代和高级形式。虽然传统的 RL 通常依赖于表格或线性函数将状态映射到动作,但它难以处理大型状态空间(例如,屏幕上所有可能的像素组合)。DRL 通过使用深度神经网络作为强大的函数逼近器来克服这一限制。
  • 深度学习 (DL): DL 是一项技术,它支持 DRL 处理复杂输入的能力。虽然 DL 最常与监督学习相关联,在这种学习中,模型从标记的数据集中学习,但 DRL 从奖励的稀疏反馈中学习,使其适用于优化和控制任务。
  • 监督学习: 这种学习范例需要一个标记的数据集来训练模型以进行预测。相比之下,DRL不需要标记数据;相反,它通过与环境的交互来生成自己的数据,并由奖励信号引导。这使其对于标记数据稀缺或不可用的问题非常有效。

实际应用

DRL 推动了各个复杂领域的突破:

在 AI 生态系统中的相关性

深度强化学习正处于人工智能研究的前沿,推动着机器自主性的边界。虽然像 Ultralytics 这样的公司主要关注最先进的视觉模型,例如 Ultralytics YOLO,用于诸如目标检测图像分割等任务,但这些感知系统的输出通常是 DRL 代理的关键输入。例如,机器人可以使用通过 Ultralytics HUB 部署的 Ultralytics YOLO 模型来感知其环境(状态表示),然后 DRL 策略决定下一步行动。了解 DRL 为高级感知如何融入更广泛的自主系统提供了背景。这种发展通常由 PyTorchPyTorch 主页)和 TensorFlowTensorFlow 主页)等框架推动,并在 Gymnasium 等模拟环境中进行测试。诸如 DeepMind 等领先的研究组织和诸如人工智能促进协会 (AAAI) 等学术机构继续推动着这个令人兴奋的领域的发展。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板