词汇表

深度强化学习

探索深度强化学习的强大功能——人工智能学习复杂行为，以解决游戏、机器人、医疗保健等领域的挑战。

深度强化学习 (DRL) 是机器学习 (ML) 的一个子领域，它结合了强化学习 (RL)的原理和深度学习 (DL)的力量。它使 AI 代理能够通过在复杂的高维环境中反复试验来学习最佳决策策略。通过使用深度神经网络，DRL 模型可以处理原始感官输入（如图像中的像素或传感器数据），而无需手动进行特征工程。这使他们能够解决以前传统 RL 方法难以处理的问题。

深度强化学习如何运作

在一个典型的 DRL 设置中，智能体在一系列时间步长内与环境交互。在每个步骤中，智能体观察环境的状态，采取行动，并获得奖励或惩罚。目标是学习一种策略（一种选择行动的策略），以最大化随时间的总累积奖励。“深度”DRL 来自于使用深度神经网络来近似策略本身或估计状态或行动的期望值的值函数。该网络使用诸如梯度下降之类的算法进行训练，以根据收到的奖励调整其模型权重。整个过程使用马尔可夫决策过程 (MDP)进行形式化，该过程为建模顺序决策提供了数学基础。

与其他概念的区别

区分 DRL 与相关术语非常重要：

强化学习 (RL): DRL 是 RL 的一种现代和高级形式。虽然传统的 RL 通常依赖于表格或线性函数将状态映射到动作，但它难以处理大型状态空间（例如，屏幕上所有可能的像素组合）。DRL 通过使用深度神经网络作为强大的函数逼近器来克服这一限制。
深度学习 (DL): DL 是一项技术，它支持 DRL 处理复杂输入的能力。虽然 DL 最常与监督学习相关联，在这种学习中，模型从标记的数据集中学习，但 DRL 从奖励的稀疏反馈中学习，使其适用于优化和控制任务。
监督学习: 这种学习范例需要一个标记的数据集来训练模型以进行预测。相比之下，DRL不需要标记数据；相反，它通过与环境的交互来生成自己的数据，并由奖励信号引导。这使其对于标记数据稀缺或不可用的问题非常有效。

实际应用

DRL 推动了各个复杂领域的突破：

游戏： 最著名的例子之一是 DeepMind 的 AlphaGo，它击败了世界顶级的围棋选手。DRL 代理通过与自己对战数百万局游戏来学习，使用棋盘的视觉状态来做出战略决策。同样，OpenAI Five 学会了以超人的水平玩复杂的视频游戏 Dota 2。
机器人技术: 深度强化学习 (DRL) 用于训练机器人执行复杂的任务，如物体操作、运动和组装。例如，机器人可以直接处理来自摄像头的输入，并在成功抓取物体时获得积极的奖励，从而学习拾取不熟悉的物体。关于人工智能在机器人技术中的作用的讨论探讨了这一主题。
自动驾驶汽车: 深度强化学习 (DRL) 有助于开发复杂的控制策略，用于在动态交通场景中进行导航、路径规划和决策，正如关于自动驾驶汽车人工智能的文章中所详述的那样。
资源管理： DRL 可以优化复杂的系统，如能源网格、交通信号控制和化学反应优化。一个例子是使用 DRL 来管理智慧城市的交通流量。
Recommendation Systems（推荐系统）: DRL 可以优化向用户展示的推荐序列，以最大限度地提高长期参与度或满意度。
医疗保健：人们正在探索DRL，以基于患者状态发现最佳治疗策略和药物剂量，从而为更广泛的医疗保健AI领域做出贡献。

在 AI 生态系统中的相关性

深度强化学习正处于人工智能研究的前沿，推动着机器自主性的边界。虽然像 Ultralytics 这样的公司主要关注最先进的视觉模型，例如 Ultralytics YOLO，用于诸如目标检测和图像分割等任务，但这些感知系统的输出通常是 DRL 代理的关键输入。例如，机器人可以使用通过 Ultralytics HUB 部署的 Ultralytics YOLO 模型来感知其环境（状态表示），然后 DRL 策略决定下一步行动。了解 DRL 为高级感知如何融入更广泛的自主系统提供了背景。这种发展通常由 PyTorch（PyTorch 主页）和 TensorFlow（TensorFlow 主页）等框架推动，并在 Gymnasium 等模拟环境中进行测试。诸如 DeepMind 等领先的研究组织和诸如人工智能促进协会 (AAAI) 等学术机构继续推动着这个令人兴奋的领域的发展。

深度强化学习

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

深度强化学习如何运作

与其他概念的区别

实际应用

在 AI 生态系统中的相关性

阅读更多此类别的内容

Ultralytics 在 2025 年 PyTorch 大会上的主要亮点

利用自我监督学习对图像进行去噪处理

视觉人工智能为驾驶员注意力监控系统提供动力

加入 Ultralytics 社区