Reinforcement Learning
探索强化学习 (RL) 的核心概念。了解智能体如何利用反馈来掌握任务,并查看 Ultralytics YOLO26 如何赋能 RL 视觉系统。
强化学习 (RL) 是机器学习 (ML) 的一个以目标为导向的子领域,在这种机制中,被称为智能体的自治系统通过执行动作并接收环境反馈来学习决策。与依赖带有正确答案标注的静态数据集的监督学习不同,RL 算法通过试错的动态过程进行学习。智能体与仿真环境或真实世界进行交互,观察其动作的结果,以确定哪些策略能带来最高的长期奖励。这种方法非常接近操作性条件反射这一心理学概念,即行为是通过随着时间的推移进行正强化(奖励)和负强化(惩罚)来形成的。
Link to this sectionRL 循环的核心概念#
为了理解 RL 的运作方式,将其想象为一个持续的交互循环是非常有帮助的。这种框架在数学上通常被形式化为马尔可夫决策过程 (MDP),它构建了在结果部分随机且部分受决策者控制的情况下的决策过程。
此学习循环的主要组成部分包括:
- AI 智能体: 负责学习和制定决策的实体。它感知环境并采取行动以最大限度地提高其累积成功率。
- 环境: 智能体在其中运行的外部世界。这可能是一个复杂的视频游戏、金融市场模拟,或者是AI 物流中的实体仓库。
- 状态: 当前情况的快照或表示。在视觉应用中,这通常涉及使用计算机视觉 (CV) 处理摄像头画面以检测物体和障碍物。
- 动作: 智能体所做的具体移动或选择。所有可能移动的集合被称为动作空间。
- 奖励: 动作执行后由环境发送给智能体的数值信号。设计合理的奖励函数会为有益的动作分配正值,并为有害的动作分配惩罚。
- 策略: 智能体用来根据当前状态决定下一步动作的策略或规则集。像 Q-learning 这样的算法定义了如何更新和优化该策略。
Link to this section实际应用#
强化学习已经从理论研究走向了各行各业的实际高影响力部署。
- 高级机器人: 在AI 机器人领域,RL 使机器能够掌握难以硬编码的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim 等物理引擎中进行训练,学会抓取不规则物体或在崎岖地形上导航,然后再部署到现实世界中。
- 自主系统: 自动驾驶汽车利用 RL 在不可预测的交通场景中做出实时决策。当目标检测模型识别行人和标志时,RL 算法有助于确定车道合并和交叉路口导航的安全驾驶策略。
- 战略优化: 当Google DeepMind 的 AlphaGo 等系统在复杂的棋盘游戏中击败人类世界冠军时,RL 获得了全球关注。除了游戏之外,这些智能体还能优化工业物流,例如控制数据中心的冷却系统以降低能耗。
Link to this section将视觉与 RL 集成#
在许多现代应用中,智能体观察的“状态”是视觉信息。像 YOLO26 这样高性能的模型可以作为 RL 智能体的感知层,将原始图像转换为结构化数据。这些处理过的信息(例如物体的位置和类别)成为 RL 策略用于选择动作的状态。
以下示例展示了如何使用 ultralytics 软件包处理环境帧,为理论上的 RL 循环创建状态表示(例如,物体的数量)。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this section区分相关术语#
将强化学习与其他机器学习范式区分开来非常重要:
- vs. 监督学习: 监督学习需要知识渊博的外部监督者提供标记的训练数据(例如,“这张图片包含一只猫”)。相比之下,RL 在没有明确标签的情况下从自身行为的结果中学习,通过探索发现最优路径。
- vs. 无监督学习: 无监督学习专注于在未标记数据中寻找隐藏的结构或模式(例如客户聚类)。RL 的不同之处在于它明确以目标为导向,侧重于最大化奖励信号,而不是仅仅描述数据结构。
随着计算能力的增加,诸如人类反馈强化学习 (RLHF) 等技术正在进一步完善智能体的学习方式,使其目标与复杂的人类价值观和安全标准更加一致。研究人员经常使用 Gymnasium 等标准化环境来评估和改进这些算法。对于希望管理这些智能体感知层所需数据集的团队,Ultralytics Platform 提供了全面的标注和模型管理工具。






