术语表

深度强化学习

探索深度强化学习的力量--人工智能通过学习复杂的行为来解决游戏、机器人、医疗保健等领域的挑战。

深度强化学习(DRL)是机器学习(ML)的一个子领域,它将强化学习(RL)的原理与深度学习(DL)的功能相结合。它使人工智能代理能够在复杂的高维环境中通过试错学习最优决策策略。通过使用深度神经网络,DRL 模型可以处理原始感官输入,如图像中的像素或传感器数据,而无需人工特征工程。这使它们能够解决传统 RL 方法以前难以解决的问题。

深度强化学习的工作原理

在典型的 DRL 设置中,代理在一系列时间步骤中与环境进行交互。在每一步中,代理都会观察环境状态,采取一项行动,并获得奖励或惩罚。我们的目标是学习一种策略--一种选择行动的策略--使一段时间内的总累积奖励最大化。DRL 的 "深度 "部分来自于使用深度神经网络来逼近策略本身或估计状态或行动可取性的值函数。该网络使用梯度下降等算法进行训练,以根据获得的奖励调整其模型权重。整个过程采用马尔可夫决策过程(MDP)进行形式化,为顺序决策建模提供了数学基础。

与其他概念的区别

必须将 DRL 与相关术语区分开来:

  • 强化学习(RL)DRL 是 RL 的一种现代高级形式。传统的强化学习通常依赖于表格或线性函数来将状态映射到行动,但它在处理大型状态空间(例如屏幕上所有可能的像素组合)时显得力不从心。DRL 利用深度神经网络作为强大的函数近似器,克服了这一局限性。
  • 深度学习(DL)深度学习技术是 DRL 处理复杂输入能力的基础。DL 通常与监督学习相关,即模型从标记数据集中学习,而 DRL 则从稀疏的奖励反馈中学习,因此适用于优化和控制任务。
  • 监督学习这种学习范式需要有标记的数据集来训练模型,从而做出预测。相比之下,DRL 不需要标注数据;相反,它通过与环境的交互,在奖励信号的引导下生成自己的数据。这使得它在标签数据稀缺或不可用的问题上非常有效。

实际应用

DRL 推动了各种复杂领域的突破:

  • 玩游戏:最著名的例子之一是DeepMind 的 AlphaGo,它击败了世界顶级围棋选手。该 DRL 代理通过与自己对弈数百万局来学习,利用棋盘的视觉状态做出战略决策。同样,OpenAI Five 也学会了以超人的水平玩复杂的视频游戏 Dota 2
  • 机器人DRL 可用于训练机器人执行复杂的任务,如物体操纵、运动和组装。例如,机器人可以直接处理来自摄像头输入,并在成功抓取后获得积极奖励,从而学会抓取不熟悉的物体。
  • 自动驾驶汽车DRL 可帮助开发复杂的控制策略,用于动态交通场景中的导航、路径规划和决策,详见有关自动驾驶汽车中的人工智能的文章。
  • 资源管理:DRL 可以优化能源网、交通信号控制和化学反应优化等复杂系统。利用 DRL管理智能城市的交通流量就是一个例子。
  • 推荐系统DRL 可以优化向用户展示的推荐顺序,最大限度地提高用户的长期参与度或满意度。
  • 医疗保健:DRL 正在探索如何根据病人的状态发现最佳治疗方案和药物剂量,为更广泛的人工智能医疗领域做出贡献。

人工智能生态系统中的相关性

深度强化学习(Deep Reinforcement Learning)是人工智能研究的前沿,推动着机器自主性的发展。虽然像 Ultralytics 这样的公司主要专注于最先进的视觉模型,如用于物体检测图像分割的 UltralyticsYOLO,但这些感知系统的输出往往是 DRL 代理的关键输入。例如,在 DRL 策略决定下一步行动之前,机器人可能会使用通过Ultralytics HUB部署的 Ultralytics YOLO 模型来感知环境(状态表示)。了解 DRL 为高级感知如何融入更广泛的自主系统提供了背景。PyTorch(PyTorch 主页)和TensorFlow(TensorFlow 主页)等框架通常会促进这种开发,并在Gymnasium 等模拟环境中进行测试。DeepMind等领先研究机构和人工智能促进协会(AAAI)等学术机构将继续推动这一令人兴奋的领域取得进展。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板