深圳Yolo 视觉
深圳
立即加入
词汇表

强化学习

了解强化学习,其中智能体通过试错优化行动,以最大限度地提高回报。 探索概念、应用和优势!

强化学习(RL)是机器学习(ML)的一个动态子集。 机器学习(ML)的一个动态子集,其重点是教会一个 自主人工智能代理如何通过试错做出最优决策。 尝试和出错。与其他依赖静态数据集的学习范式不同,强化学习涉及代理与动态环境的交互,以实现特定目标。 动态环境进行交互,以实现特定目标。代理根据自己的行动,以奖励或惩罚的形式接收反馈,逐步完善自己的决策。 代理根据自己的行动,以奖励或惩罚的形式接收反馈,逐步完善自己的策略,使累积奖励随着时间的推移达到最大化。这一过程反映了 概念。 行为心理学中的操作性条件反射概念,即通过后果强化行为。

核心概念和机制

强化学习的框架在数学上通常被描述为一个 马尔可夫决策过程 (MDP)。要理解 要了解这一循环是如何运作的,分解学习循环中涉及的主要组成部分是很有帮助的:

  • 人工智能代理学习者或决策者 感知环境并执行行动的学习者或决策者。
  • 环境:环境:代理运行所在的物理或虚拟世界。在 视频游戏中的人工智能 是游戏世界;在机器人领域,则是物理空间。
  • 状态:向代理提供的当前情况快照。这通常涉及感官 输入,如计算机视觉系统(CV 计算机视觉(CV)系统的数据。
  • 行动:行动:代理做出的具体行动或决定。所有可能行动的集合称为 行动空间
  • 奖励:行动后从环境中接收到的数字信号。正奖励 鼓励行为,而负面奖励(惩罚)则抑制行为。
  • 策略:策略:代理根据当前状态决定下一步行动所采用的策略或规则集。 当前状态。

强化学习在现实世界中的应用

RL 已经超越了理论研究的范畴,目前正在为各行各业复杂的现实世界系统提供动力。

  • 机器人技术中的人工智能在制造 在制造和物流领域,机器人利用 RL 学习复杂的操作任务,例如抓取形状各异的物体。 机器人不需要对每个动作进行硬编码,而是学会根据物理反馈调整抓握方式,从而显著提高生产效率。 智能制造环境中的效率。 智能制造环境中的效率。
  • 自动驾驶汽车 自动驾驶汽车利用 RL 做出高级驾驶决策。而 物体检测模型可识别行人和标志 标志,而 RL 算法则有助于确定最安全、最有效的操作,例如何时并入车流或 如何在繁忙的十字路口行驶。
  • 交通控制:城市规划者利用 RL 优化交通信号配时。通过将交通 流作为奖励函数,系统就能动态调整以减少拥堵,这是人工智能在交通管理中的一个关键组成部分。 人工智能在交通管理中的关键组成部分。

强化学习与相关术语

重要的是要将 RL 与其他机器学习方法区分开来,因为它们的训练方法有很大不同。 明显不同。

  • 监督学习这种 这种方法依赖于一个训练数据集,其中包含 输入与正确输出(标签)配对的训练数据集。模型通过最小化其预测与已知标签之间的误差来学习。 已知标签之间的误差最小。相比之下,RL 事先无法获得 "正确 "的答案,它必须通过交互来发现这些答案。 通过交互来发现。
  • 无监督学习 这涉及在无标签数据中寻找隐藏的模式或结构,例如通过 k-means 聚类对客户进行分组。RL 的不同之处在于其 目标是最大化奖励信号,而不仅仅是分析数据分布。
  • 深度强化学习(DRL) RL 定义了学习范式,而 DRL 则将其与 深度学习。在 DRL 中、 神经网络用于近似 策略或价值函数,使代理能够处理原始图像像素等高维输入。

将计算机视觉与 RL 相结合

在许多应用中,代理观察到的 "状态 "都是可视的。高性能视觉模型,如 YOLO11等高性能视觉模型经常被用作 RL 代理的感知层。视觉模型处理场景以detect 物体,并将这些结构化信息传递给 RL 代理,以决定下一步行动。

下面的示例演示了如何使用YOLO 模型生成状态(检测到的物体),并将其输入YOLO 决策循环。 的状态(检测到的物体)。

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

为了探索这些概念如何扩展,研究人员经常利用一些环境,如 OpenAI Gym(现为 Gymnasium)这样的环境来规范 RL 算法的测试。随着 计算能力的增长,像 人类反馈强化学习 (RLHF) 等技术 等技术正在进一步完善代理如何与人类价值观保持一致。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入