探索深度强化学习的强大功能——人工智能学习复杂行为,以解决游戏、机器人、医疗保健等领域的挑战。
深度强化学习 (DRL) 是 机器学习 (ML) 的一个子领域,它结合了强化学习 (RL)的原理和深度学习 (DL)的力量。它使 AI 代理能够通过在复杂的高维环境中反复试验来学习最佳决策策略。通过使用深度神经网络,DRL 模型可以处理原始感官输入(如图像中的像素或传感器数据),而无需手动进行特征工程。这使他们能够解决以前传统 RL 方法难以处理的问题。
在一个典型的 DRL 设置中,智能体在一系列时间步长内与环境交互。在每个步骤中,智能体观察环境的状态,采取行动,并获得奖励或惩罚。目标是学习一种策略(一种选择行动的策略),以最大化随时间的总累积奖励。“深度”DRL 来自于使用深度神经网络来近似策略本身或估计状态或行动的期望值的值函数。该网络使用诸如梯度下降之类的算法进行训练,以根据收到的奖励调整其模型权重。整个过程使用马尔可夫决策过程 (MDP)进行形式化,该过程为建模顺序决策提供了数学基础。
区分 DRL 与相关术语非常重要:
DRL 推动了各个复杂领域的突破:
深度强化学习正处于人工智能研究的前沿,推动着机器自主性的边界。虽然像 Ultralytics 这样的公司主要关注最先进的视觉模型,例如 Ultralytics YOLO,用于诸如目标检测和图像分割等任务,但这些感知系统的输出通常是 DRL 代理的关键输入。例如,机器人可以使用通过 Ultralytics HUB 部署的 Ultralytics YOLO 模型来感知其环境(状态表示),然后 DRL 策略决定下一步行动。了解 DRL 为高级感知如何融入更广泛的自主系统提供了背景。这种发展通常由 PyTorch(PyTorch 主页)和 TensorFlow(TensorFlow 主页)等框架推动,并在 Gymnasium 等模拟环境中进行测试。诸如 DeepMind 等领先的研究组织和诸如人工智能促进协会 (AAAI) 等学术机构继续推动着这个令人兴奋的领域的发展。