遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Deep Reinforcement Learning

探索深度强化学习 (DRL) 以及它如何将 AI 决策与深度学习相结合。学习今天将 Ultralytics YOLO26 用作感知层。

深度强化学习 (DRL) 是 人工智能 (AI) 的一个高级子集,它结合了 强化学习 的决策能力与 深度学习 (DL) 的感知能力。传统的强化学习依赖表格方法将情境映射到动作,但在环境复杂或涉及视觉时,这些方法会遇到困难。DRL 通过使用 神经网络 来解释高维输入数据(如视频帧或传感器读数)解决了这一问题,使机器能够在无需人工明确指导的情况下,直接从原始经验中学习有效的策略。

Link to this sectionDRL 的核心机制#

在 DRL 系统中,AI 智能体 在离散的时间步中与环境进行交互。在每个步骤中,智能体观察当前的“状态”,根据策略选择一个动作,并接收一个表示该动作成功或失败的奖励信号。其主要目标是最大化随时间推移的累积奖励。

“深度”部分指的是使用深度神经网络来近似策略(行动策略)或价值函数(预期的未来奖励)。这使得智能体能够处理非结构化数据,利用 计算机视觉 (CV) 像人类一样“观察”环境。这一能力由 PyTorchTensorFlow 等框架驱动,这些框架促进了复杂网络的训练。

Link to this section实际应用#

DRL 已超越理论研究,在各行各业中实现了具有高影响力的实际应用:

  • 高级机器人:机器人 AI 领域,DRL 使机器能够掌握难以通过硬编码实现的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim 等物理引擎中优化其动作,学习抓取不规则物体或在崎岖地形上行走。这通常涉及在将策略部署到物理硬件之前,先使用 合成数据 进行训练。
  • 自动驾驶: 自动驾驶车辆 利用 DRL 在不可预测的交通场景中做出实时决策。虽然 目标检测 模型可以识别行人和标志,但 DRL 算法会利用这些信息来确定车道合并、交叉路口导航和速度控制的安全驾驶策略,有效地管理安全所需的 推理延迟

Link to this section视觉作为状态观察者#

对于许多 DRL 应用而言,“状态”是视觉化的。高速模型充当智能体的眼睛,将原始图像转换为策略网络可以处理的结构化数据。以下示例说明了 YOLO26 模型如何作为智能体的感知层,从环境中提取观测结果(例如,障碍物数量)。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this section区分 DRL 与相关概念#

为了理解深度强化学习在 AI 领域中的独特地位,区分它与相似术语是很有帮助的:

  • 强化学习 (RL) 标准的 RL 是基础概念,但通常依赖查找表(如 Q-table),这在处理大型状态空间时变得不切实际。DRL 通过使用深度学习来近似函数解决了这个问题,使其能够处理图像等复杂输入。
  • 人类反馈强化学习 (RLHF) 虽然 DRL 通常针对数学定义的奖励函数(例如游戏中的分数)进行优化,但 RLHF 使用主观的人类偏好来精炼模型——特别是 大语言模型 (LLM)——以使 AI 行为与人类价值观保持一致,这是一种由 OpenAI 等研究小组推广的技术。
  • 无监督学习 无监督学习方法在没有明确反馈的情况下寻找数据中的隐藏模式。相比之下,DRL 是面向目标的,由奖励信号驱动,该信号会积极引导智能体达成特定目标,正如 Sutton and Barto 的基础著作中所讨论的那样。

寻求管理 DRL 系统感知层所需数据集的开发者,可以使用 Ultralytics Platform,它简化了标注和云训练的工作流程。此外,研究人员经常使用 Gymnasium 等标准化环境,根据既定基准来评估他们的 DRL 算法。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅