词汇表

强化学习

了解强化学习，其中智能体通过试错优化行动，以最大限度地提高回报。探索概念、应用和优势！

强化学习（RL）是机器学习（ML）的一个动态子集。机器学习（ML）的一个动态子集，其重点是教会一个自主人工智能代理如何通过试错做出最优决策。尝试和出错。与其他依赖静态数据集的学习范式不同，强化学习涉及代理与动态环境的交互，以实现特定目标。动态环境进行交互，以实现特定目标。代理根据自己的行动，以奖励或惩罚的形式接收反馈，逐步完善自己的决策。代理根据自己的行动，以奖励或惩罚的形式接收反馈，逐步完善自己的策略，使累积奖励随着时间的推移达到最大化。这一过程反映了概念。行为心理学中的操作性条件反射概念，即通过后果强化行为。

核心概念和机制

强化学习的框架在数学上通常被描述为一个马尔可夫决策过程 (MDP)。要理解要了解这一循环是如何运作的，分解学习循环中涉及的主要组成部分是很有帮助的：

人工智能代理：学习者或决策者感知环境并执行行动的学习者或决策者。
环境：环境：代理运行所在的物理或虚拟世界。在视频游戏中的人工智能是游戏世界；在机器人领域，则是物理空间。
状态：向代理提供的当前情况快照。这通常涉及感官输入，如计算机视觉系统（CV 计算机视觉（CV）系统的数据。
行动：行动：代理做出的具体行动或决定。所有可能行动的集合称为行动空间。
奖励：行动后从环境中接收到的数字信号。正奖励鼓励行为，而负面奖励（惩罚）则抑制行为。
策略：策略：代理根据当前状态决定下一步行动所采用的策略或规则集。当前状态。

强化学习在现实世界中的应用

RL 已经超越了理论研究的范畴，目前正在为各行各业复杂的现实世界系统提供动力。

机器人技术中的人工智能：在制造在制造和物流领域，机器人利用 RL 学习复杂的操作任务，例如抓取形状各异的物体。机器人不需要对每个动作进行硬编码，而是学会根据物理反馈调整抓握方式，从而显著提高生产效率。智能制造环境中的效率。智能制造环境中的效率。
自动驾驶汽车： 自动驾驶汽车利用 RL 做出高级驾驶决策。而物体检测模型可识别行人和标志标志，而 RL 算法则有助于确定最安全、最有效的操作，例如何时并入车流或如何在繁忙的十字路口行驶。
交通控制：城市规划者利用 RL 优化交通信号配时。通过将交通流作为奖励函数，系统就能动态调整以减少拥堵，这是人工智能在交通管理中的一个关键组成部分。人工智能在交通管理中的关键组成部分。

强化学习与相关术语

重要的是要将 RL 与其他机器学习方法区分开来，因为它们的训练方法有很大不同。明显不同。

监督学习：这种这种方法依赖于一个训练数据集，其中包含输入与正确输出（标签）配对的训练数据集。模型通过最小化其预测与已知标签之间的误差来学习。已知标签之间的误差最小。相比之下，RL 事先无法获得 "正确 "的答案，它必须通过交互来发现这些答案。通过交互来发现。
无监督学习： 这涉及在无标签数据中寻找隐藏的模式或结构，例如通过 k-means 聚类对客户进行分组。RL 的不同之处在于其目标是最大化奖励信号，而不仅仅是分析数据分布。
深度强化学习（DRL）： RL 定义了学习范式，而 DRL 则将其与深度学习。在 DRL 中、神经网络用于近似策略或价值函数，使代理能够处理原始图像像素等高维输入。

将计算机视觉与 RL 相结合

在许多应用中，代理观察到的 "状态 "都是可视的。高性能视觉模型，如 YOLO11等高性能视觉模型经常被用作 RL 代理的感知层。视觉模型处理场景以detect 物体，并将这些结构化信息传递给 RL 代理，以决定下一步行动。

下面的示例演示了如何使用YOLO 模型生成状态（检测到的物体），并将其输入YOLO 决策循环。的状态（检测到的物体）。

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

为了探索这些概念如何扩展，研究人员经常利用一些环境，如 OpenAI Gym（现为 Gymnasium）这样的环境来规范 RL 算法的测试。随着计算能力的增长，像人类反馈强化学习 (RLHF) 等技术等技术正在进一步完善代理如何与人类价值观保持一致。

强化学习

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

核心概念和机制

强化学习在现实世界中的应用

强化学习与相关术语

将计算机视觉与 RL 相结合

阅读更多此类别的内容

未来物体检测趋势：需要关注的 7 个关键问题

利用Ultralytics YOLO 模型增强车辆再识别能力

利用Ultralytics YOLO 模型改进碰撞预测

加入Ultralytics 社区