遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Reinforcement Learning

探索强化学习 (RL) 的核心概念。了解智能体如何利用反馈来掌握任务,并查看 Ultralytics YOLO26 如何赋能 RL 视觉系统。

强化学习 (RL) 是机器学习 (ML) 的一个以目标为导向的子领域,在这种机制中,被称为智能体的自治系统通过执行动作并接收环境反馈来学习决策。与依赖带有正确答案标注的静态数据集的监督学习不同,RL 算法通过试错的动态过程进行学习。智能体与仿真环境或真实世界进行交互,观察其动作的结果,以确定哪些策略能带来最高的长期奖励。这种方法非常接近操作性条件反射这一心理学概念,即行为是通过随着时间的推移进行正强化(奖励)和负强化(惩罚)来形成的。

Link to this sectionRL 循环的核心概念#

为了理解 RL 的运作方式,将其想象为一个持续的交互循环是非常有帮助的。这种框架在数学上通常被形式化为马尔可夫决策过程 (MDP),它构建了在结果部分随机且部分受决策者控制的情况下的决策过程。

此学习循环的主要组成部分包括:

  • AI 智能体 负责学习和制定决策的实体。它感知环境并采取行动以最大限度地提高其累积成功率。
  • 环境: 智能体在其中运行的外部世界。这可能是一个复杂的视频游戏、金融市场模拟,或者是AI 物流中的实体仓库。
  • 状态: 当前情况的快照或表示。在视觉应用中,这通常涉及使用计算机视觉 (CV) 处理摄像头画面以检测物体和障碍物。
  • 动作: 智能体所做的具体移动或选择。所有可能移动的集合被称为动作空间
  • 奖励: 动作执行后由环境发送给智能体的数值信号。设计合理的奖励函数会为有益的动作分配正值,并为有害的动作分配惩罚。
  • 策略: 智能体用来根据当前状态决定下一步动作的策略或规则集。像 Q-learning 这样的算法定义了如何更新和优化该策略。

Link to this section实际应用#

强化学习已经从理论研究走向了各行各业的实际高影响力部署。

  • 高级机器人:AI 机器人领域,RL 使机器能够掌握难以硬编码的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim 等物理引擎中进行训练,学会抓取不规则物体或在崎岖地形上导航,然后再部署到现实世界中。
  • 自主系统: 自动驾驶汽车利用 RL 在不可预测的交通场景中做出实时决策。当目标检测模型识别行人和标志时,RL 算法有助于确定车道合并和交叉路口导航的安全驾驶策略。
  • 战略优化:Google DeepMind 的 AlphaGo 等系统在复杂的棋盘游戏中击败人类世界冠军时,RL 获得了全球关注。除了游戏之外,这些智能体还能优化工业物流,例如控制数据中心的冷却系统以降低能耗。

Link to this section将视觉与 RL 集成#

在许多现代应用中,智能体观察的“状态”是视觉信息。像 YOLO26 这样高性能的模型可以作为 RL 智能体的感知层,将原始图像转换为结构化数据。这些处理过的信息(例如物体的位置和类别)成为 RL 策略用于选择动作的状态。

以下示例展示了如何使用 ultralytics 软件包处理环境帧,为理论上的 RL 循环创建状态表示(例如,物体的数量)。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this section区分相关术语#

将强化学习与其他机器学习范式区分开来非常重要:

  • vs. 监督学习 监督学习需要知识渊博的外部监督者提供标记的训练数据(例如,“这张图片包含一只猫”)。相比之下,RL 在没有明确标签的情况下从自身行为的结果中学习,通过探索发现最优路径。
  • vs. 无监督学习 无监督学习专注于在未标记数据中寻找隐藏的结构或模式(例如客户聚类)。RL 的不同之处在于它明确以目标为导向,侧重于最大化奖励信号,而不是仅仅描述数据结构。

随着计算能力的增加,诸如人类反馈强化学习 (RLHF) 等技术正在进一步完善智能体的学习方式,使其目标与复杂的人类价值观和安全标准更加一致。研究人员经常使用 Gymnasium 等标准化环境来评估和改进这些算法。对于希望管理这些智能体感知层所需数据集的团队,Ultralytics Platform 提供了全面的标注和模型管理工具。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅