探索深度强化学习的强大功能——人工智能学习复杂行为,以解决游戏、机器人、医疗保健等领域的挑战。
深度强化学习(DRL)是机器学习(ML)的一个高级子领域。 深度强化学习(DRL)是机器学习(ML)的高级子领域,它结合了 决策框架 强化学习与深度学习(DL)强大的 深度学习(DL)的强大感知能力。 传统的强化学习依靠试错来优化简单环境中的行为,而 DRL 则整合了多层神经网络,以 解释高维感知数据,如视频帧或复杂的传感器读数。这种整合使 人工智能代理学习复杂的策略,以解决 解决动态、非结构化环境中的棘手问题,包括自主导航和战略游戏。 游戏。
DRL 的核心是一个代理与其环境之间的互动,通常用数学模型表示为 马尔可夫决策过程(MDP)。与 监督学习不同,在监督学习中,模型是 与监督式学习不同,监督式学习是在已知正确答案的标注数据集上训练模型,而 DRL Agent 通过探索来学习。它观察当前状态,采取行动,并接收反馈信号,即 "奖励"。 "奖励"。
为了处理复杂的输入,DRL 采用了 卷积神经网络 (CNN) 或其他深度架构来近似计算特定操作的价值。通过 反向传播和 梯度下降等过程,网络会调整其 模型权重,以最大化一段时间内的累积奖励。 最大化。这些算法包括 深度 Q 网络(DQN)和 近端策略优化(PPO) 等算法有助于稳定这一训练过程,使代理能够将其学习推广到新的、未见过的情况中。 情况。
DRL 的多功能性为各行各业带来了变革性的应用:
在许多 DRL 应用中,"状态 "代表视觉信息。高速 物体检测模型可以充当 将原始像素转换成策略网络可以采取行动的结构化数据。
下面的示例说明了 YOLO11可用于 提取 DRL 代理的状态观测值:
from ultralytics import YOLO
# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects and locations)
results = model(observation)
# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:
开发 DRL 系统需要强大的软件生态系统。研究人员依赖于以下框架 PyTorch和 TensorFlow来构建底层神经网络。 它们通常与标准接口库结合使用,如 Gymnasium(前身为 OpenAI Gym)等标准接口库。 这些库提供了一系列用于测试和基准测试算法的环境。训练这些模型的计算量很大,通常 需要高性能GPU来 处理收敛所需的数百万个模拟步骤。