敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

强化学习

了解强化学习,其中智能体通过试错优化行动,以最大限度地提高回报。 探索概念、应用和优势!

强化学习 (RL) 是 机器学习 (ML) 的一个领域,其中智能体通过试错学习做出最优决策。与其他学习范式不同,智能体不会被告知要采取哪些行动。相反,它与环境交互,并以奖励或惩罚的形式接收反馈。智能体的根本目标是学习一种策略(称为策略),从而最大化其随时间的累积奖励。这种方法受到行为心理学的启发,尤其适用于解决顺序决策问题,正如 Sutton 和 Barto 的基础文本中所概述的那样。

强化学习的工作原理

强化学习过程被建模为一个连续的反馈循环,涉及几个关键组件:

  • 智能体: 学习者和决策者,例如机器人或游戏程序。
  • 环境:智能体与之交互的外部世界。
  • 状态: 环境在特定时刻的快照,为智能体提供做出决策所需的信息。
  • 动作: 智能体从一组可能的选项中选择的移动。
  • 奖励:环境在每次动作后发送给代理的数值信号,指示该动作的期望程度。

智能体观察环境的当前状态,执行一个动作,并获得奖励以及下一个状态。这个循环重复进行,通过这种经验,智能体逐渐改进其策略,从而倾向于能够带来更高长期回报的动作。这个问题的正式框架通常用 马尔可夫决策过程 (MDP) 来描述。流行的强化学习算法包括 Q-learning 和策略梯度。

与其他学习范式的比较

强化学习与其他主要类型的机器学习不同:

实际应用

强化学习在各种复杂领域取得了显著成功:

  • 游戏博弈(Game Playing) 强化学习(RL)智能体在复杂游戏中取得了超越人类的表现。一个突出的例子是DeepMind的AlphaGo,它学会了击败世界上最优秀的围棋选手。另一个例子是OpenAI在Dota 2上的工作,其中一个智能体学会了复杂的团队策略。
  • 机器人技术: 强化学习 (RL) 用于训练机器人执行复杂的任务,例如物体操作、组装和运动。机器人无需进行显式编程,而是可以通过在模拟或真实环境中因成功尝试而获得奖励来学习行走或抓取物体。这是伯克利人工智能研究 (BAIR) 实验室等机构的一个关键研究领域。
  • 资源管理: 优化复杂系统中的运营,例如管理城市中的交通流量、平衡能源网格中的负载以及优化化学反应。
  • Recommendation Systems(推荐系统): 强化学习(RL)可用于优化推荐给用户的项目序列,以最大限度地提高长期参与度和满意度,而不仅仅是立即点击。

在人工智能生态系统中的相关性

强化学习是更广泛的 人工智能 (AI) 领域中的一个关键组成部分,尤其是在创建自主系统方面。虽然像 Ultralytics 这样的公司专注于视觉 AI 模型,例如 Ultralytics YOLO,用于 目标检测实例分割 等任务(使用监督学习),但这些模型的感知能力是 RL 智能体的重要输入。

例如,机器人可以使用 YOLO 模型进行感知,通过 Ultralytics HUB 部署,以了解其周围环境(即“状态”)。然后,强化学习策略会利用这些信息来决定其下一步行动。这种用于感知的 计算机视觉 (CV) 与用于决策的强化学习之间的协同作用是构建智能系统的基础。这些系统通常使用 PyTorchTensorFlow 等框架开发,并且经常在 Gymnasium(前身为 OpenAI Gym) 等标准化模拟环境中进行测试。为了提高模型与人类偏好的一致性,基于人类反馈的强化学习 (RLHF) 等技术在这一领域也变得越来越重要。 DeepMind 等组织和 NeurIPS 等学术会议不断推动着强化学习的进步。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板