探索深度强化学习(DRL)及其如何将人工智能决策与深度学习相结合。立即学习如何Ultralytics 作为感知层。
深度强化学习(DRL)是人工智能(AI)的一个高级子集,它将强化学习的决策能力与深度学习(DL)的感知能力相结合。传统强化学习依赖表格方法将情境映射到动作,但在复杂或视觉化的环境中,这些方法往往力不从心。 DRL通过神经网络解析视频帧、传感器读数等高维输入数据,使机器无需人类显式指导,即可从原始经验中直接习得有效策略,从而突破了这一局限。
在DRL系统中,人工智能代理以离散时间步长与环境交互。 每个时间步中,代理观察当前"状态",根据策略选择动作, 并接收指示该动作成败的奖励信号。其核心目标是 在时间维度上最大化累积奖励。
"深度"组件指的是利用深度神经网络来近似策略(行动方案)或价值函数(预估未来奖励)。这使智能体能够处理非结构化数据,通过计算机视觉(CV)技术像人类一样"观察"环境。该能力由PyTorch等框架提供支持。 PyTorch 或 TensorFlow等框架提供支持,这些框架能有效促进复杂网络的训练过程。
DRL已超越理论研究,在多个行业实现了具有实际影响力的应用:
对于许多深度强化学习(DRL)应用而言,"状态"具有视觉属性。高速模型充当智能体的眼睛,将原始图像转换为结构化数据,供策略网络进行决策。下例展示了YOLO26模型如何作为智能体的感知层,从环境中提取观测信息(如障碍物计数)。
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
将深度强化学习(Deep Reinforcement Learning)与类似术语区分开来,有助于理解其在人工智能领域的独特地位。 人工智能领域的独特地位:
开发者若需管理深度强化学习系统感知层所需的数据集,可采用Ultralytics ,该Ultralytics 能简化标注与云端训练工作流。此外,研究人员常借助Gymnasium等标准化环境,将自身深度强化学习算法与既定基准进行基准测试。