探索深度强化学习的力量--人工智能通过学习复杂的行为来解决游戏、机器人、医疗保健等领域的挑战。
深度强化学习(DRL)是机器学习(ML)的一个子领域,它将强化学习(RL)的原理与深度学习(DL)的功能相结合。它使人工智能代理能够在复杂的高维环境中通过试错学习最优决策策略。通过使用深度神经网络,DRL 模型可以处理原始感官输入,如图像中的像素或传感器数据,而无需人工特征工程。这使它们能够解决传统 RL 方法以前难以解决的问题。
在典型的 DRL 设置中,代理在一系列时间步骤中与环境进行交互。在每一步中,代理都会观察环境状态,采取一项行动,并获得奖励或惩罚。我们的目标是学习一种策略--一种选择行动的策略--使一段时间内的总累积奖励最大化。DRL 的 "深度 "部分来自于使用深度神经网络来逼近策略本身或估计状态或行动可取性的值函数。该网络使用梯度下降等算法进行训练,以根据获得的奖励调整其模型权重。整个过程采用马尔可夫决策过程(MDP)进行形式化,为顺序决策建模提供了数学基础。
必须将 DRL 与相关术语区分开来:
DRL 推动了各种复杂领域的突破:
深度强化学习(Deep Reinforcement Learning)是人工智能研究的前沿,推动着机器自主性的发展。虽然像 Ultralytics 这样的公司主要专注于最先进的视觉模型,如用于物体检测和图像分割的 UltralyticsYOLO,但这些感知系统的输出往往是 DRL 代理的关键输入。例如,在 DRL 策略决定下一步行动之前,机器人可能会使用通过Ultralytics HUB部署的 Ultralytics YOLO 模型来感知环境(状态表示)。了解 DRL 为高级感知如何融入更广泛的自主系统提供了背景。PyTorch(PyTorch 主页)和TensorFlow(TensorFlow 主页)等框架通常会促进这种开发,并在Gymnasium 等模拟环境中进行测试。DeepMind等领先研究机构和人工智能促进协会(AAAI)等学术机构将继续推动这一令人兴奋的领域取得进展。