深圳Yolo 视觉
深圳
立即加入
词汇表

强化学习

探索强化学习 (RL) 的核心概念。了解智能体如何利用反馈掌握任务,并了解 Ultralytics YOLO26 如何为 RL 视觉系统提供支持。

强化学习 (RL) 是 机器学习 (ML) 中面向目标的一个子集,其中一个自主系统(称为智能体)通过执行动作并从环境中接收反馈来学习做出决策。与依赖带有正确答案标签的静态数据集的 监督学习 不同,RL 算法通过动态的试错过程学习。智能体与模拟环境或现实世界交互,观察其行动的后果,以确定哪些策略能带来最高的长期奖励。这种方法与 操作性条件反射 的心理学概念非常相似,其中行为通过积极强化(奖励)和消极强化(惩罚)随时间推移而形成。

RL 循环的核心概念

为了理解 RL 如何运作,将其可视化为一个持续的交互循环会很有帮助。这个框架通常被数学化为 马尔可夫决策过程 (MDP),它在结果部分随机、部分由决策者控制的情况下构建决策。

这个学习循环的主要组成部分包括:

  • AI 代理 负责 学习和决策的实体。它感知环境并采取行动以最大化其累积成功。
  • 环境:智能体所处的外部世界。这可能是一个复杂的视频游戏、金融市场模拟,或者是物流AI中的物理仓库。
  • 状态:当前情况的快照或表示。在视觉应用中,这通常涉及使用计算机视觉 (CV)来detect物体和障碍物。
  • 行动: 代理做出的具体移动或选择。所有可能移动的完整集合被称为 行动空间
  • 奖励:在动作之后从环境发送给代理的数值信号。一个精心设计的奖励函数会为有益的动作分配正值,为有害的动作分配惩罚。
  • 策略:代理根据当前状态决定下一个动作的策略或规则集。Q-learning等算法定义了如何更新和优化此策略。

实际应用

强化学习已超越理论研究,进入实际的、高影响力的部署,跨越各个行业。

  • 高级机器人技术:机器人AI领域,强化学习(RL)使机器能够掌握难以硬编码的复杂运动技能。机器人可以通过在 NVIDIA Isaac Sim等物理引擎中进行训练,学习抓取不规则物体或在崎岖地形中导航,然后再部署到现实世界。
  • 自动系统:自动驾驶车辆利用RL在不可预测的交通场景中做出实时决策。虽然目标检测模型识别行人和标志,但RL算法有助于确定车道合并和交叉路口导航的安全驾驶策略。
  • 战略优化:Google DeepMind 的 AlphaGo 等系统在复杂棋盘游戏中击败人类世界冠军时,强化学习(RL)获得了全球关注。除了游戏领域,这些智能体还在优化工业物流方面发挥作用,例如控制数据中心的冷却系统以降低能耗。

将视觉与强化学习 (RL) 集成

在许多现代应用中,智能体观察到的“状态”是视觉的。像 YOLO26 这样的高性能模型作为 RL 智能体的感知层,将原始图像转换为结构化数据。这种处理后的信息——例如对象的位置和类别——成为 RL 策略用于选择行动的状态。

下面的示例演示了如何使用 ultralytics 包来处理环境帧,为理论上的 RL 循环创建状态表示(例如,对象数量)。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

区分相关术语

将强化学习与其他机器学习范式区分开来很重要:

  • 对比 监督学习监督学习需要一个知识渊博的外部监督者提供带标签的训练数据(例如,“这张图片包含一只猫”)。相比之下,强化学习通过探索,从自身行为的后果中学习,无需明确的标签,从而发现最优路径。
  • 对比 无监督学习无监督学习侧重于在无标签数据中发现隐藏的结构或模式(例如客户聚类)。强化学习则不同,它明确以目标为导向,专注于最大化奖励信号,而非仅仅描述数据结构。

随着计算能力的提升,像 基于人类反馈的强化学习 (RLHF) 这样的技术正在进一步完善智能体的学习方式,使其目标更紧密地与复杂的人类价值观和安全标准对齐。研究人员经常使用像 Gymnasium 这样的标准化环境来基准测试和改进这些算法。对于希望管理这些智能体感知层所需数据集的团队,Ultralytics Platform 提供全面的标注和模型管理工具。

让我们一起共建AI的未来!

开启您的机器学习未来之旅