了解强化学习,其中智能体通过试错优化行动,以最大限度地提高回报。 探索概念、应用和优势!
强化学习 (RL) 是 机器学习 (ML) 的一个领域,其中智能体通过试错学习做出最优决策。与其他学习范式不同,智能体不会被告知要采取哪些行动。相反,它与环境交互,并以奖励或惩罚的形式接收反馈。智能体的根本目标是学习一种策略(称为策略),从而最大化其随时间的累积奖励。这种方法受到行为心理学的启发,尤其适用于解决顺序决策问题,正如 Sutton 和 Barto 的基础文本中所概述的那样。
强化学习过程被建模为一个连续的反馈循环,涉及几个关键组件:
智能体观察环境的当前状态,执行一个动作,并获得奖励以及下一个状态。这个循环重复进行,通过这种经验,智能体逐渐改进其策略,从而倾向于能够带来更高长期回报的动作。这个问题的正式框架通常用 马尔可夫决策过程 (MDP) 来描述。流行的强化学习算法包括 Q-learning 和策略梯度。
强化学习与其他主要类型的机器学习不同:
强化学习在各种复杂领域取得了显著成功:
强化学习是更广泛的 人工智能 (AI) 领域中的一个关键组成部分,尤其是在创建自主系统方面。虽然像 Ultralytics 这样的公司专注于视觉 AI 模型,例如 Ultralytics YOLO,用于 目标检测 和 实例分割 等任务(使用监督学习),但这些模型的感知能力是 RL 智能体的重要输入。
例如,机器人可以使用 YOLO 模型进行感知,通过 Ultralytics HUB 部署,以了解其周围环境(即“状态”)。然后,强化学习策略会利用这些信息来决定其下一步行动。这种用于感知的 计算机视觉 (CV) 与用于决策的强化学习之间的协同作用是构建智能系统的基础。这些系统通常使用 PyTorch 和 TensorFlow 等框架开发,并且经常在 Gymnasium(前身为 OpenAI Gym) 等标准化模拟环境中进行测试。为了提高模型与人类偏好的一致性,基于人类反馈的强化学习 (RLHF) 等技术在这一领域也变得越来越重要。 DeepMind 等组织和 NeurIPS 等学术会议不断推动着强化学习的进步。