在计算机视觉项目中利用强化学习
了解计算机视觉应用中的强化学习如何帮助系统观察、做出决策,并在各行业的实际应用中不断改进。

解释人工智能 (AI) 的一个直观方式是,它是一个专注于重现人类思考和学习方式的领域。这就是 AI 学习技术这一理念的来源,它们是让机器能够像人类一样随着时间推移提高性能的不同方法。
之前,我们已经探讨了关键的 AI 学习技术,包括监督学习、无监督学习、强化学习和迁移学习,以及每种技术在帮助 AI 模型处理信息和做出决策方面所发挥的重要作用。
今天,我们将深入探讨 强化学习,这是一种教导 AI 系统通过与环境交互并根据反馈进行改进,从而在经验中学习的技术。具体来说,我们将探讨如何将强化学习应用于 计算机视觉 应用,即那些使机器能够解读和理解来自世界的视觉信息的系统。
将强化学习和计算机视觉等概念结合在一起,开辟了令人兴奋的新可能性,并且是一个活跃的研究领域。它使 AI 系统能够识别所见事物,并根据这些视觉信息做出明智的决策。
Link to this section什么是强化学习?#
强化学习是机器学习的一个分支,其中 AI 智能体 通过采取行动并以奖励或惩罚的形式接收反馈来进行学习。其目标是弄清楚哪些行动随着时间的推移会带来最佳结果。
你可以把强化学习想象成训练狗。当狗听从指令坐下时,你给它奖励。过了一会儿,狗就会学会坐下会带来奖励。在强化学习中,AI 智能体或模型就像那只狗;环境是它周围的世界,而奖励则帮助它理解自己是否做出了正确的举动。
这与监督学习不同,在监督学习中,AI 模型会被展示许多正确答案的示例。例如,模型可能会看到一张狗的照片,并被告知:“这是一只狗。”
另一方面,强化学习不依赖标记数据。相反,它涉及通过尝试不同的行动并从结果中学习,就像玩游戏并找出哪些动作能让你获胜一样。

图 1. 强化学习与监督学习。
强化学习对于需要逐步做出决策且每个选择都会改变后续情况的任务至关重要。这种学习方式被用于战略 视频游戏 中,以使游戏过程更具挑战性和吸引力。
Link to this section强化学习在 AI 解决方案中如何运作#
回想一下你是如何学会骑自行车的。起初,你可能会摔倒。但通过练习,你开始摸索出什么有助于保持平衡。你骑得越多,就骑得越好。你是通过实践来学习的,而不是仅仅被告知该怎么做。
强化学习在 AI 中的工作原理与之类似。它通过经验进行学习——尝试不同的动作,观察发生的情况,并随着时间的推移逐步提高做出正确选择的能力。

图 2. 了解强化学习的工作原理。
以下是强化学习的一些关键组件:
- 智能体 (Agent):智能体是学习者或决策者。它通过采取行动与环境进行交互,旨在实现特定目标。
- 环境 (Environment):环境包括智能体与之交互的一切事物。它会随着智能体的行动而变化,并根据结果提供反馈。
- 状态 (State):状态代表环境中当前情况的快照。智能体观察状态以了解其周围环境并确定下一步采取什么行动。
- 行动 (Action):行动是智能体做出的影响环境的举动或决策。每个行动都会导致一个新的状态,并可能影响未来的奖励。
- 奖励 (Reward):奖励仅仅是来自环境的反馈,它告诉智能体其行动是否有益。正向奖励鼓励智能体重复良好的行为,而负向奖励则阻止不良行为。
- 策略 (Policy):策略是智能体基于当前状态选择行动的规划。随着时间的推移,智能体会改进其策略,以最大化其能获得的全部奖励。
通过将这些组件结合使用,强化学习使 AI 系统能够通过持续的试错来学习有效的行为。随着每次尝试,智能体会变得更加擅长 选择能够带来更高奖励和更好结果的行动。
Link to this section计算机视觉创新中的强化学习#
计算机视觉用于诸如 检测图像中的对象、对图片内容进行分类以及将图像分割成不同部分等任务。像 Ultralytics YOLO11 这样的计算机视觉模型支持此类任务,并可用于构建能够收集视觉洞察的有影响力的应用程序。
然而,当这些 Vision AI 任务与强化学习相结合时,结果就是一个不仅能“看见”,还能根据视觉洞察学习如何行动并随时间推移不断进步的 AI 解决方案。
计算机视觉应用中强化学习的一个有趣例子是机器人在 仓库 中的使用。配备摄像头和计算机视觉系统的机器人可以分析周围环境,检测每个物品的位置,识别其形状和大小,并了解其在货架上的摆放方式。
每次机器人尝试抓取物品时,它都会收到反馈——成功则物品被正确抓取,失败则物品掉落。随着时间的推移,机器人会学习到哪些动作对不同的物品最有效。它无需遵循一套固定的指令,而是通过经验不断改进。

图 3. 使用 Vision AI 和强化学习来抓取物体的机械臂。
Link to this section强化学习在计算机视觉中的应用#
现在我们对强化学习及其在计算机视觉中的作用有了更好的理解,让我们更深入地了解一些将强化学习和计算机视觉结合使用的示例。
Link to this section集成 Vision AI 和强化学习以实现更智能的车辆#
自动驾驶汽车 可以依靠 Vision AI 来了解周围环境,并依靠强化学习来根据所见内容做出决策。这方面的一个绝佳案例是 AWS DeepRacer。
AWS DeepRacer 是一辆完全自动驾驶的 1/18 比例赛车,它通过摄像头和强化学习学习如何驾驶。它不需要被告知该做什么,而是通过尝试、犯错并从中学习,自己搞清楚一切。
这辆小车的摄像头就像一双眼睛,捕捉前方的赛道。根据所见内容,汽车学习如何转向以及速度快慢。每一圈,它都会进步。例如,它可能会通过从过去的尝试中学习,学会以更宽的弧度转弯,或者在急转弯前减速。
DeepRacer 的训练始于虚拟环境,模型在那里练习并磨练其驾驶技能。一旦达到一定的性能水平,这些技能就会转移到带有实体汽车的现实赛道上。

图 4. AWS DeepRacer 使用视觉和强化学习来实现自动驾驶。图片来源:Amazon。
Link to this section迈向自主手术机器人#
一个正在引起关注的令人兴奋的研究领域是将 Vision AI 和强化学习集成到机器人手术中。目前,该应用在很大程度上仍处于理论阶段。研究人员正在虚拟环境中运行模拟。
然而,早期的实验显示出有希望的结果,这表明手术机器人最终可以以更高的精度、适应性和极少的人工干预来执行复杂、精细的手术。

图 5. 手术机器人正变得越来越先进。
例如,想象一下需要从手术部位小心移除纱布的情况。配备 Vision AI 的机器人首先会分析现场,使用 分割 技术识别纱布和周围组织。
强化学习随后将帮助 手术机器人 决定如何处理这项任务,确定抓取纱布的最佳角度、施加多少压力,以及如何在不扰动附近敏感区域的情况下将其提起。随着时间的推移,通过在模拟环境中的反复练习,机器人可以学会以更高的熟练度和信心执行这些微妙、关键的动作。
Link to this sectionVision AI 中强化学习的优缺点#
强化学习允许 Vision AI 系统超越简单的识别,并开始根据它们看到的内容做出决策。这在机器人、自动化和实时交互等领域开辟了新的可能性。
以下是将强化学习集成到 Vision AI 工作流中的一些主要优势:
- 减少对标记数据的依赖: 这些系统可以从交互中学习,因此不需要大量的标记 数据集 即可上手。
- 更好地处理不确定性: 强化学习可以通过根据反馈调整行动来处理不完整或有噪声的视觉信息,而不是仅仅依赖于完美的数据。
- 支持长期学习:它通过从一系列行动而不是单步决策中学习,帮助模型随着时间的推移不断改进。
另一方面,以下是一些需要考虑的强化学习的局限性:
- 信用分配问题: 智能体可能很难弄清楚哪些特定的行动对最终结果有贡献,尤其是在长决策序列中。
- 不安全探索的风险: 在训练过程中,智能体可能会尝试在医疗保健或自动驾驶等现实应用中不可接受的不安全或不受欢迎的行动。
- 收敛缓慢: 模型可能需要很长时间才能真正达到良好的 性能,特别是对于复杂的任务。
Link to this section关键要点#
计算机视觉项目中的强化学习使 AI 系统能够理解周围环境,并通过经验学习如何行动。借助像 Ultralytics YOLO11 这样提供实时目标检测的模型,系统可以根据所见内容做出明智的决策。
这种方法超越了传统方法,允许 AI 通过试错和反馈进行改进,而不是仅仅依赖于标记数据。它支持持续学习,并有助于构建更灵活、自适应和智能的 Vision AI 系统,使其随着时间的推移变得越来越好。
加入我们不断发展的 社区。访问我们的 GitHub 仓库 以深入探索 AI。想要开始你自己的计算机视觉项目?探索 我们的许可选项。在我们的解决方案页面上了解更多关于 制造业中的 AI 和 汽车行业中的 Vision AI 的信息。






