探索强化学习 (RL) 的核心概念。了解智能体如何利用反馈掌握任务,并了解 Ultralytics YOLO26 如何为 RL 视觉系统提供支持。
强化学习 (RL) 是 机器学习 (ML) 中面向目标的一个子集,其中一个自主系统(称为智能体)通过执行动作并从环境中接收反馈来学习做出决策。与依赖带有正确答案标签的静态数据集的 监督学习 不同,RL 算法通过动态的试错过程学习。智能体与模拟环境或现实世界交互,观察其行动的后果,以确定哪些策略能带来最高的长期奖励。这种方法与 操作性条件反射 的心理学概念非常相似,其中行为通过积极强化(奖励)和消极强化(惩罚)随时间推移而形成。
为了理解 RL 如何运作,将其可视化为一个持续的交互循环会很有帮助。这个框架通常被数学化为 马尔可夫决策过程 (MDP),它在结果部分随机、部分由决策者控制的情况下构建决策。
这个学习循环的主要组成部分包括:
强化学习已超越理论研究,进入实际的、高影响力的部署,跨越各个行业。
在许多现代应用中,智能体观察到的“状态”是视觉的。像 YOLO26 这样的高性能模型作为 RL 智能体的感知层,将原始图像转换为结构化数据。这种处理后的信息——例如对象的位置和类别——成为 RL 策略用于选择行动的状态。
下面的示例演示了如何使用 ultralytics 包来处理环境帧,为理论上的 RL 循环创建状态表示(例如,对象数量)。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
将强化学习与其他机器学习范式区分开来很重要:
随着计算能力的提升,像 基于人类反馈的强化学习 (RLHF) 这样的技术正在进一步完善智能体的学习方式,使其目标更紧密地与复杂的人类价值观和安全标准对齐。研究人员经常使用像 Gymnasium 这样的标准化环境来基准测试和改进这些算法。对于希望管理这些智能体感知层所需数据集的团队,Ultralytics Platform 提供全面的标注和模型管理工具。
开启您的机器学习未来之旅