深圳Yolo 视觉
深圳
立即加入
词汇表

强化学习

探索强化学习(RL)的核心概念。了解智能体如何利用反馈掌握任务,并见证Ultralytics 赋能RL视觉系统。

强化学习(RL)是机器学习(ML)中以目标为导向的子领域,其中一个称为智能体的自主系统通过执行操作并接收环境反馈来学习决策。与依赖标注正确答案的静态数据集的监督学习不同,RL算法通过动态的试错过程进行学习。 智能体通过与模拟环境或真实世界交互,观察自身行为的后果,从而确定哪些策略能带来长期最高回报。这种方法紧密模拟了操作性条件反射的心理学概念——行为会随着时间推移,在正强化(奖励)与负强化(惩罚)的作用下逐渐塑造。

强化学习循环的核心概念

要理解强化学习的运作机制,将其视作持续交互的循环过程会有所助益。这种框架常被数学化地形式化为马尔可夫决策过程(MDP),该模型用于构建决策结构——在决策者既能部分控制结果又面临部分随机性的情境中进行决策。

该学习循环的主要组成部分包括:

  • AI代理负责学习和决策的实体。它感知环境并采取行动以最大化其累积成功。
  • 环境:智能体所处的外部世界。这可能是复杂的电子游戏、金融市场模拟,或是物流领域人工智能中的实体仓库。
  • 状态:当前情况的快照或呈现。在视觉应用中,这通常涉及使用计算机视觉(CV)处理摄像头输入以detect 障碍物。
  • 动作:智能体采取的具体行动或选择。所有可能行动的完整集合称为动作空间
  • 奖励:环境在代理执行动作后发送的数值信号。设计良好的奖励函数会为有益动作赋予正值,对有害动作施加惩罚。
  • 策略:代理基于当前状态确定下一步行动的策略或规则集。诸如Q学习等算法定义了该策略如何更新与优化。

实际应用

强化学习已从理论研究阶段迈向实践应用,在多个行业实现了具有重大影响力的部署。

  • 高级机器人技术:机器人人工智能领域,强化学习使机器能够掌握难以硬编码的复杂运动技能。机器人NVIDIA Sim等物理引擎中训练后部署至真实环境,从而学会抓取不规则物体或在崎岖地形中导航。
  • 自主系统: 自动驾驶车辆利用强化学习(RL)在不可预测的交通场景中做出实时决策。物体检测模型识别行人与路标的同时,强化学习算法则协助制定车道并线和交叉路口导航的安全驾驶策略。
  • 战略优化:Google 系统在复杂棋类游戏中击败人类世界冠军时,强化学习(RL)引起了全球关注。除了游戏领域,这些智能体还能优化工业物流,例如控制数据中心的冷却系统以降低能耗。

视觉与强化学习的融合

在许多现代应用中,智能体所观察到的"状态"是视觉信息。高性能模型如YOLO26充当强化学习智能体的感知层,将原始图像转化为结构化数据。这些经过处理的信息——例如物体的位置和类别——便成为强化学习策略选择动作时所依据的状态。

下面的示例演示了如何使用 ultralytics 处理环境帧的程序包, 为理论强化学习循环创建状态表示(例如对象数量)。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

区分相关术语

区分强化学习与其他机器学习范式至关重要:

  • 监督学习相比: 监督学习需要知识渊博的外部监督者提供标记的训练数据(例如"这张图片包含一只猫")。 而强化学习则无需明确标签,通过自身行为的后果进行学习,在探索中发现最优路径。
  • 无监督学习相比: 无监督学习侧重于在无标签数据中发现隐藏结构或模式(如客户聚类)。 而强化学习则截然不同,它具有明确的目标导向性,专注于最大化奖励信号, 而非仅仅描述数据结构。

随着计算能力的提升,诸如 基于人类反馈的强化学习(RLHF) 等技术正不断优化智能体的学习方式,使其目标更紧密地契合复杂的人类价值观与安全标准。 研究人员常借助Gymnasium等标准化环境 对这些算法进行基准测试与优化。对于需要管理 智能体感知层所需数据集的Ultralytics 提供了涵盖标注与模型管理的全套工具。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入