了解强化学习,其中智能体通过试错优化行动,以最大限度地提高回报。 探索概念、应用和优势!
强化学习(RL)是机器学习(ML)的一个动态子集。 机器学习(ML)的一个动态子集,其重点是教会一个 自主人工智能代理如何通过试错做出最优决策。 尝试和出错。与其他依赖静态数据集的学习范式不同,强化学习涉及代理与动态环境的交互,以实现特定目标。 动态环境进行交互,以实现特定目标。代理根据自己的行动,以奖励或惩罚的形式接收反馈,逐步完善自己的决策。 代理根据自己的行动,以奖励或惩罚的形式接收反馈,逐步完善自己的策略,使累积奖励随着时间的推移达到最大化。这一过程反映了 概念。 行为心理学中的操作性条件反射概念,即通过后果强化行为。
强化学习的框架在数学上通常被描述为一个 马尔可夫决策过程 (MDP)。要理解 要了解这一循环是如何运作的,分解学习循环中涉及的主要组成部分是很有帮助的:
RL 已经超越了理论研究的范畴,目前正在为各行各业复杂的现实世界系统提供动力。
重要的是要将 RL 与其他机器学习方法区分开来,因为它们的训练方法有很大不同。 明显不同。
在许多应用中,代理观察到的 "状态 "都是可视的。高性能视觉模型,如 YOLO11等高性能视觉模型经常被用作 RL 代理的感知层。视觉模型处理场景以detect 物体,并将这些结构化信息传递给 RL 代理,以决定下一步行动。
下面的示例演示了如何使用YOLO 模型生成状态(检测到的物体),并将其输入YOLO 决策循环。 的状态(检测到的物体)。
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
为了探索这些概念如何扩展,研究人员经常利用一些环境,如 OpenAI Gym(现为 Gymnasium)这样的环境来规范 RL 算法的测试。随着 计算能力的增长,像 人类反馈强化学习 (RLHF) 等技术 等技术正在进一步完善代理如何与人类价值观保持一致。

