敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

在计算机视觉项目中利用强化学习

Abirami Vina

5 分钟阅读

2025年6月5日

了解计算机视觉应用中的强化学习如何帮助系统在各个行业的实际应用中进行观察、决策和改进。

解释人工智能 (AI) 的一种直接方法是,它是一个专注于重现人类思考和学习方式的领域。 这就是人工智能中学习技术的概念来源,这些不同的方法使机器能够像人一样随着时间的推移提高其性能。

之前,我们已经探讨了关键的 AI 学习技术,包括监督学习、非监督学习、强化学习和迁移学习,以及每种学习技术如何在帮助 AI 模型处理信息和做出决策方面发挥重要作用。

今天,我们将仔细研究强化学习,这是一种通过与环境互动并根据反馈进行改进来教导 AI 系统通过经验学习的技术。 具体来说,我们将探讨强化学习如何应用于 计算机视觉 应用——使机器能够解释和理解来自世界的视觉信息的系统。

将强化学习和计算机视觉等概念结合在一起,开辟了令人兴奋的新可能性,并且是一个活跃的研究领域。 它使 AI 系统能够识别它们所看到的内容,并根据该视觉信息做出明智的决策。 

什么是强化学习?

强化学习是机器学习的一个分支,其中 AI 代理 通过采取行动并接收奖励或惩罚形式的反馈来进行学习。 目标是弄清楚哪些行动可以随着时间的推移带来最佳结果。

你可以把强化学习想象成训练一条狗。 当狗按照命令坐下时,你会给它一块食物。 过一段时间,狗就会明白坐下会得到奖励。 在强化学习中,AI 代理或模型就像狗;环境就像它周围的世界,奖励帮助它了解它是否做出了正确的举动。

这与监督学习不同,在监督学习中,AI 模型会显示许多正确答案的示例。 例如,可能会向模型显示一张狗的照片,并被告知“这是一只狗”。 

另一方面,强化学习不依赖于标记数据。 相反,它涉及通过尝试不同的行动并从结果中学习,很像玩游戏并弄清楚哪些动作可以帮助你获胜。

__wf_reserved_inherit
图 1. 强化学习与监督学习。

强化学习对于逐步做出决策的任务至关重要,并且每个选择都会改变接下来发生的事情。 这种类型的学习用于策略 视频游戏,以使游戏玩法对玩家更具挑战性和吸引力。

强化学习在 AI 解决方案中的工作原理

想想你是如何学会骑自行车的。 起初,你可能会摔倒。 但通过练习,你开始弄清楚什么可以帮助你保持平衡。 你骑得越多,你就越好。 你是通过做来学习的,而不仅仅是被告知该怎么做。

强化学习对于 AI 的工作方式类似。 它通过经验来学习——通过尝试不同的行动、观察发生的事情,并逐渐提高其随着时间的推移做出正确选择的能力。

__wf_reserved_inherit
图 2. 了解强化学习的工作原理。

以下是强化学习的一些关键组成部分:

  • 代理:代理是学习者或决策者。 它通过采取行动与环境互动,并旨在实现特定目标。
  • 环境:环境包括代理与之交互的所有内容。 它会根据代理的行动而变化,并根据结果提供反馈。
  • 状态:状态表示环境中当前情况的快照。 代理观察状态以了解其周围环境并确定下一步要采取的行动。
  • 行动:行动是代理做出的影响环境的举动或决定。 每个行动都会导致一种新状态,并可能影响未来的奖励。
  • 奖励:奖励只是来自环境的反馈,告诉代理其行动是否有益。 积极的奖励鼓励代理重复良好的行动,而消极的奖励则阻止不良的行动。
  • 策略:策略是代理根据当前状态选择行动的策略。 随着时间的推移,代理会改进其策略,以最大限度地提高其可以获得的奖励总额。

通过结合使用这些组件,强化学习使 AI 系统能够通过持续的试错学习有效的行为。每次尝试,智能体在选择能够带来更高回报和更好结果的行动时都会变得更好。

计算机视觉创新中的强化学习

计算机视觉用于诸如检测图像中的物体、对图片中的内容进行分类以及将图像分割成不同部分等任务。诸如Ultralytics YOLO11之类的计算机视觉模型支持此类任务,并且可用于构建能够收集视觉见解的影响深远的应用。  

然而,当这些视觉 AI 任务与强化学习相结合时,最终会产生一种 AI 解决方案,它不仅能看到东西,还能学会如何根据视觉见解采取行动,并随着时间的推移而变得更好。

强化学习在计算机视觉应用中一个有趣的例子是在仓库中使用机器人。配备摄像头和计算机视觉系统的机器人可以分析周围环境,检测每个物品的位置,识别其形状和大小,并了解其在货架上的位置。

每次机器人尝试拿起一件物品时,它都会收到反馈——如果物品被正确拿起则成功,如果掉落则失败。随着时间的推移,机器人会学习哪种动作最适合不同的物品。它不是遵循一套固定的指令,而是通过经验不断改进。

__wf_reserved_inherit
图 3. 机械臂使用视觉 AI 和强化学习来拾取物体。

强化学习在计算机视觉中的应用

现在我们对强化学习及其在计算机视觉中的作用有了更好的理解,接下来让我们仔细看看强化学习和计算机视觉一起使用的一些例子。

集成视觉 AI 和强化学习以实现更智能的车辆

自动驾驶车辆可以依靠视觉 AI 来了解周围环境,并依靠强化学习来根据他们所看到的内容做出决策。AWS DeepRacer 就是一个很好的例子。

AWS DeepRacer 是一款完全自动驾驶的 1/18 比例赛车,它使用摄像头和强化学习来学习如何驾驶。它不是被告知该怎么做,而是通过尝试、犯错和从中学习来自己解决问题。

这款小型车的摄像头就像一双眼睛,捕捉前方的赛道。根据它所看到的内容,赛车会学习如何转向以及行驶速度。每次行驶,它都会变得更好。例如,它可能会通过从过去的尝试中学习,从而学会转弯时转更大的弯或在急转弯前减速。

DeepRacer 的训练从虚拟环境开始,模型在其中练习和提高其驾驶技能。一旦达到一定的性能水平,这些技能就会转移到带有实体车的真实赛道上。 

__wf_reserved_inherit
图 4. AWS DeepRacer 使用视觉和强化学习来实现自主驾驶。图片来源:亚马逊。 

迈向自主外科手术机器人

一个备受关注的令人兴奋的研究领域是在机器人手术中集成视觉 AI 和强化学习。目前,此应用在很大程度上仍是理论性的。研究人员正在虚拟环境中运行模拟。

然而,早期的实验显示出了有希望的结果,表明外科手术机器人最终可以以更高的精度、适应性和最小的人工干预来执行复杂、精细的手术。

__wf_reserved_inherit
图 5. 外科手术机器人正变得越来越先进。

例如,想象一下这样一种情况:需要小心地从手术部位提起一块纱布。配备视觉 AI 的机器人会首先分析场景,使用分割来识别纱布和周围的组织。 

然后,强化学习将帮助外科手术机器人决定如何处理这项任务,确定抓住纱布的最佳角度、施加多少压力以及如何在不干扰附近敏感区域的情况下提起它。随着时间的推移,通过在模拟环境中反复练习,机器人可以学会以越来越高的技能和信心来执行这些微妙而关键的动作。

视觉 AI 中强化学习的优缺点

强化学习使视觉 AI 系统能够超越简单的识别,并开始根据他们所看到的内容做出决策。这为机器人技术、自动化和实时交互等领域开辟了新的可能性。 

以下是将强化学习集成到视觉 AI 工作流程中的一些主要优势:

  • 减少对标记数据的依赖: 这些系统可以通过交互进行学习,因此他们不需要大量的标记数据集即可开始。
  • 更好地处理不确定性: 强化学习可以通过根据反馈调整动作,而不是仅仅依赖于完美的数据,来处理不完整或嘈杂的视觉信息。
  • 支持长期学习: 它通过从一系列动作中学习,而不仅仅是单步决策,来帮助模型随着时间的推移而改进。

另一方面,以下是强化学习的一些局限性,需要考虑:

  • 信用分配问题: 智能体很难确定哪些具体行动促成了最终结果,尤其是在漫长的决策序列中。
  • 不安全探索的风险: 在训练过程中,智能体可能会尝试不安全或不良的动作,这在医疗保健或自动驾驶等现实应用中是不可接受的。
  • 收敛速度慢: 模型实际达到良好性能可能需要很长时间,特别是对于复杂的任务。

主要要点

计算机视觉项目中的强化学习使 AI 系统能够理解周围环境,并通过经验学习如何行动。借助 Ultralytics YOLO11 等模型提供的实时对象检测,系统可以根据所看到的内容做出明智的决策。

这种方法超越了传统方法,它允许 AI 通过试验和反馈来改进,而不是仅仅依赖于标记数据。它支持持续学习,并有助于构建更灵活、适应性更强、更智能的视觉 AI 系统,这些系统会随着时间的推移而变得更好。

加入我们不断壮大的社区。访问我们的GitHub 仓库,深入了解 AI。想要启动您自己的计算机视觉项目吗?探索我们的许可选项。在我们的解决方案页面上了解更多关于制造业中的 AI汽车行业的视觉 AI的信息。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板