探索强化学习(RL)的核心概念。了解智能体如何利用反馈掌握任务,并见证Ultralytics 赋能RL视觉系统。
强化学习(RL)是机器学习(ML)中以目标为导向的子领域,其中一个称为智能体的自主系统通过执行操作并接收环境反馈来学习决策。与依赖标注正确答案的静态数据集的监督学习不同,RL算法通过动态的试错过程进行学习。 智能体通过与模拟环境或真实世界交互,观察自身行为的后果,从而确定哪些策略能带来长期最高回报。这种方法紧密模拟了操作性条件反射的心理学概念——行为会随着时间推移,在正强化(奖励)与负强化(惩罚)的作用下逐渐塑造。
要理解强化学习的运作机制,将其视作持续交互的循环过程会有所助益。这种框架常被数学化地形式化为马尔可夫决策过程(MDP),该模型用于构建决策结构——在决策者既能部分控制结果又面临部分随机性的情境中进行决策。
该学习循环的主要组成部分包括:
强化学习已从理论研究阶段迈向实践应用,在多个行业实现了具有重大影响力的部署。
在许多现代应用中,智能体所观察到的"状态"是视觉信息。高性能模型如YOLO26充当强化学习智能体的感知层,将原始图像转化为结构化数据。这些经过处理的信息——例如物体的位置和类别——便成为强化学习策略选择动作时所依据的状态。
下面的示例演示了如何使用 ultralytics 处理环境帧的程序包,
为理论强化学习循环创建状态表示(例如对象数量)。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
区分强化学习与其他机器学习范式至关重要:
随着计算能力的提升,诸如 基于人类反馈的强化学习(RLHF) 等技术正不断优化智能体的学习方式,使其目标更紧密地契合复杂的人类价值观与安全标准。 研究人员常借助Gymnasium等标准化环境 对这些算法进行基准测试与优化。对于需要管理 智能体感知层所需数据集的Ultralytics 提供了涵盖标注与模型管理的全套工具。