术语表

深度强化学习

探索深度强化学习的力量--人工智能通过学习复杂的行为来解决游戏、机器人、医疗保健等领域的挑战。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

深度强化学习(DRL)结合了强化学习(RL)的原理和深度学习(DL)的功能。它能让软件代理在复杂的、通常是高维的环境中,通过试错学习最佳行为。传统的 RL 可能会在巨大的状态空间(如相机的原始像素数据)中挣扎,而 DRL 则不同,它利用深度神经网络(NN)来逼近学习所需的函数,如价值函数(预测未来奖励)或策略(将状态映射到行动)。这使得 DRL 代理能够直接从图像或传感器读数等复杂的感官输入中学习,从而解决以往难以解决的问题。

深度强化学习的工作原理

DRL 的核心是一个代理在不连续的时间步骤中与环境互动。其过程通常如下

  1. 观察:代理观察环境的当前状态。在 DRL 中,这种状态可以用高维数据来表示,例如用卷积神经网络(CNN)处理过的图像像素。
  2. 行动选择:根据观察到的状态,代理利用深度神经网络表示的策略选择行动。
  3. 互动:代理执行选定的操作,导致环境过渡到新的状态。
  4. 反馈(奖励):环境会提供一个标量奖励信号,显示前一个状态下行动的好坏程度。
  5. 学习:代理利用奖励信号和状态转换,通过反向传播梯度下降等算法更新其神经网络(策略或价值函数)。目标是调整网络的权重,使未来的累积奖励随着时间的推移达到最大化。这种学习循环不断重复,使代理能够逐步改进其决策策略。

DRL 的关键概念

要了解 DRL,就必须熟悉强化学习(Reinforcement Learning)的几个核心理念,现在,这些核心理念已通过深度学习技术得到了扩展:

  • 代理:学习决策的算法或模型。
  • 环境:环境:代理与之交互的世界或系统(如游戏模拟、物理机器人周围环境)。用于研究的标准化环境通常由Gymnasium(前身为 OpenAI Gym)等工具包提供。
  • 状态:特定时间点的环境表示。DRL 擅长处理由大量数据(如图像或传感器阵列)表示的状态。
  • 行动:代理做出的影响环境的决定。
  • 奖励:来自环境的数字反馈,表明在某种状态下采取某种行动的直接可取性。
  • 策略:代理的策略,将状态映射到行动。在 DRL 中,这通常是一个深度神经网络。
  • 价值函数:估计给定状态或状态-行动对的预期长期累积奖励。这通常也由深度神经网络表示。
  • 探索与利用:代理人必须在尝试新行动以发现更好的策略(探索)和坚持已知的好行动(利用)之间进行权衡。

DRL 与其他机器学习范式的比较

DRL 与其他初级机器学习 (ML)方法有很大不同:

  • 监督学习从包含标注示例(输入-输出对)的数据集中学习。使用诸如 Ultralytics YOLO等模型完成图像分类或物体检测等任务。相比之下,DRL 从奖励信号中学习,每个状态都没有明确的正确答案。
  • 无监督学习从无标签数据中学习模式和结构(如聚类)。DRL 侧重于通过互动和反馈学习以目标为导向的行为。
  • 强化学习(RL)DRL 是一种采用深度神经网络的特定 RL 类型。传统的 RL 通常使用表格(Q 表)等较简单的表示方法,但对于具有非常大或连续状态空间的问题来说,这种方法是不可行的,而 DRL 在这方面大显身手。

实际应用

DRL 推动了各种复杂领域的突破:

人工智能生态系统中的相关性

深度强化学习(Deep Reinforcement Learning)是人工智能(AI)研究的一个重要领域,推动了机器自主性和决策的发展。虽然像Ultralytics 这样的公司主要专注于最先进的视觉模型(如Ultralytics YOLO ),利用监督学习来完成物体检测图像分割等任务,但这些感知系统的输出往往是 DRL 代理的关键输入。例如,在 DRL 策略决定下一步行动之前,机器人可能会使用通过Ultralytics HUB部署的Ultralytics YOLO 模型来感知环境(状态表示)。通过了解 DRL,我们可以了解高级感知如何与更广泛的自主系统和复杂控制问题相匹配,这些问题是人工智能界利用Gymnasium等工具包和 PyTorch 等框架解决的。 PyTorch(PyTorch 主页)和 TensorFlow(TensorFlow 主页)等框架。DeepMind等研究机构和人工智能促进协会 (AAAI)等学术机构继续推动这一令人兴奋的领域取得进展。

阅读全部