探索深度强化学习 (DRL) 及其如何将 AI 决策与深度学习相结合。立即学习如何将 Ultralytics YOLO26 用作感知层。
深度强化学习 (DRL) 是人工智能 (AI)的一个高级子集,它结合了强化学习的决策能力与深度学习 (DL)的感知能力。传统强化学习依赖表格方法将情境映射到行动,但当环境复杂或涉及视觉时,这些方法会遇到困难。DRL通过使用神经网络来解释高维输入数据(例如视频帧或传感器读数)克服了这一问题,使机器能够直接从原始经验中学习有效策略,而无需明确的人工指令。
在DRL系统中,AI智能体在离散时间步长中与环境交互。在每个步骤中,智能体观察当前“状态”,根据策略选择一个行动,并接收一个指示该行动成功或失败的奖励信号。主要目标是最大化随时间累积的奖励。
“深度”组件指的是使用深度神经网络来近似策略(行动策略)或价值函数(估计的未来奖励)。这使得代理能够处理非结构化数据,利用计算机视觉 (CV)来“看”环境,就像人类一样。这种能力由PyTorch或TensorFlow等框架提供支持,这些框架有助于这些复杂网络的训练。
DRL已超越理论研究,进入了跨越各个行业的实际、高影响力的应用:
对于许多DRL应用,“状态”是视觉的。高速模型充当智能体的“眼睛”,将原始图像转换为策略网络可以操作的结构化数据。以下示例说明了YOLO26模型如何作为智能体的感知层,从环境中提取观察结果(例如,障碍物数量)。
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:
希望管理DRL系统感知层所需数据集的开发者可以利用Ultralytics Platform,该平台简化了标注和云训练工作流程。此外,研究人员经常使用Gymnasium等标准化环境,以根据既定基线对DRL算法进行基准测试。
开启您的机器学习未来之旅