深圳尤洛视觉
深圳
立即加入

计算机视觉驱动 Vision AI 代理做出决策的方式

Abirami Vina

4 分钟阅读

2025年1月20日

了解 AI 代理如何使用计算机视觉来重塑行业。探索它们在安全、自动驾驶汽车等领域的应用。

从制造业到零售业,每个行业都面临着自己的流程挑战,找到解决这些问题的创新方法一直是成功运营企业的关键。最近,人工智能代理已成为许多领域中流行的解决方案。这些系统超越了分析数据。它们还可以采取行动。 

例如,制造业中的 AI 代理 可以实时检测缺陷,并自动启动质量控制措施,以保持生产平稳运行。同样,在物流和零售业中,他们可以使用智能监控来监控多个地点,并立即向团队发出异常活动警报。 

随着这一趋势的增长,AI Agent 正在积极改变全球各行各业。全球AI Agent市场在2024年达到51亿美元,预计到2030年将增长到471亿美元。

__wf_reserved_inherit
图 1. 全球 AI 代理市场规模。

推动这些进步的关键技术之一是 计算机视觉。通过使机器能够处理和解释视觉数据,Vision AI 使 AI 代理能够执行计算机视觉任务,如实时目标检测、实例分割和目标跟踪,并具有令人难以置信的准确性。它弥合了机器所见与它们如何做出决策之间的差距,使其成为许多 AI 驱动解决方案的关键组成部分。

在本文中,我们将探讨 AI 代理及其与计算机视觉的关系。我们还将讨论不同类型的 AI 代理,以及它们如何在基于视觉的应用中使用。让我们开始吧!

什么是 AI 代理?

在深入研究基于视觉的 AI 代理之前,让我们花点时间了解一下一般的 AI 代理,以了解这些系统有多么通用。

AI 代理是一个智能系统,无需人工帮助即可理解和响应任务或问题。许多 AI 代理使用机器学习和自然语言处理 (NLP) 来处理各种任务,从回答基本问题到管理复杂流程。 

一些 AI 代理甚至具有随时间学习和改进的能力,这与依赖人工输入进行每次更新的传统 AI 系统不同。 这就是 AI 代理迅速成为 AI 的重要组成部分的原因。 它们可以自动执行任务、做出决策并与环境交互,而无需持续监督。 它们对于管理重复性和耗时的任务特别有用。

例如,您可以在客户服务和酒店等行业中找到 AI 代理。AI 代理正被用于处理退款并在客户服务中提供个性化的产品推荐。同时,在酒店业,他们可以帮助酒店员工管理客人请求、简化客房服务并向客人推荐附近的景点。这些例子展示了 AI 代理如何使日常流程更快、更高效。

理解视觉 AI 代理的工作原理

接下来,让我们快速了解一下 AI 代理的工作原理。虽然每个 AI 代理都是独一无二的,并且是为特定任务而设计的,但它们都遵循相同的三个主要步骤:感知、决策和行动。

首先,在感知步骤中,AI 代理从不同的来源收集信息,以了解正在发生的事情。接下来是决策。根据他们收集的信息,他们使用他们的算法来分析情况并决定最佳行动方案。最后是行动。一旦他们做出决定,他们就会执行它——无论是回答问题、完成任务还是标记问题供人处理。

这听起来可能很简单,但根据AI代理的类型,幕后通常会发生很多事情来使这些步骤生效。从分析复杂数据到使用高级机器学习模型,每个AI代理都旨在以自己的方式处理特定任务。 

例如,虽然许多AI代理专注于通过NLP处理语言,但其他AI代理(称为视觉AI代理)集成了计算机视觉来处理视觉数据。使用像Ultralytics YOLO11这样的高级计算机视觉模型,视觉AI代理可以执行更精确的图像分析。

__wf_reserved_inherit
图 2. 使用 YOLO11 计数图像中苹果数量的示例。

自动驾驶汽车中的视觉 AI 代理

让我们以自动驾驶汽车为例,看看视觉 AI 代理如何通过上述三个主要步骤工作:

  • 感知:自动驾驶中的视觉AI智能体从安装在车辆上的摄像头和传感器收集视觉数据。这些数据包括周围环境的图像和视频,例如其他车辆、行人、交通信号和道路标志。
  • 决策:AI 智能体使用 YOLO11 等模型处理这些视觉数据。它可以识别汽车和行人等物体,检测障碍物或突发的车道变换,并识别交通流量和信号状态等模式。这有助于汽车实时了解路况。
  • 行动: 根据其分析,AI Agent 采取行动,例如转向以避开障碍物、调整速度或在红灯处停车。这些决策会快速做出,以确保安全高效的驾驶。

Waymo 的自动驾驶汽车是这项技术的一个很好的例子。他们使用视觉 AI 代理来了解周围环境,做出实时决策,并在没有人为干预的情况下安全高效地导航道路。

__wf_reserved_inherit
图 3. Waymo 基于 AI 代理的自动驾驶出租车。

视觉 AI 代理的类型 

既然我们已经了解了 AI 代理的工作方式以及它们如何使用计算机视觉,接下来让我们看看不同类型的 AI 代理。每种类型都设计用于特定任务,从简单操作到更复杂的决策和学习。

简单反射智能体

简单反射智能体是最基本的 AI 智能体类型。它们根据当前情况,通过预定义的动作响应特定输入,而不考虑任何历史或未来结果。这些智能体通常使用简单的“如果-那么”规则来指导其行为。

在图像分析方面,一个简单的反射代理可以被编程来检测特定的颜色(例如红色),并触发立即行动(例如突出显示或计数红色物体)。虽然这对于简单的任务来说是可行的,但在更复杂的环境中,它就显得不足了,因为该代理无法从以前的经验中学习或适应。

基于模型的反射代理

基于模型的反射代理比简单的反射代理更高级,因为它们使用其环境的内部模型来更好地理解情况。该模型使他们能够处理丢失或不完整的信息,并做出更明智的决策。 

AI安全摄像头系统为例。集成在其中的视觉AI代理可以使用计算机视觉来实时分析正在发生的事情。他们可以将动作和行为与正常行为模型进行比较,帮助他们发现异常活动(如入店行窃),并更准确地标记潜在的安全威胁。

__wf_reserved_inherit
图 4. 使用计算机视觉检测盗窃行为的示例。

基于效用的代理

考虑一下用于作物监测的基于效用的无人机。它会调整飞行路线以覆盖更多地面,同时避开障碍物,并选择完成任务的最佳路线。这意味着无人机评估多个潜在的行动,例如优先考虑哪个区域或如何有效地导航,并选择使其效率最大化的行动。 

同样,基于效用的智能体旨在从多个选项中选择最佳操作,以实现最大的利益或结果。为此设计的视觉 AI 智能体可以处理和分析不同的视觉输入(例如图像或传感器数据),并根据预定义的标准选择最有用的结果。

 

__wf_reserved_inherit
图 5. 基于效用的无人机可用于作物监测。

基于目标的代理

基于目标的代理与基于效用的代理类似,因为两者都旨在实现特定目标。但是,基于目标的代理纯粹关注使其更接近其定义目标的行动。他们根据每个行动如何帮助实现其目标来评估每个行动,而不权衡其他因素,例如总体价值或权衡。

例如,当自动驾驶汽车的目标是到达目的地时,它就像一个基于目标的智能体。它处理来自AI摄像头和传感器的数据,以做出诸如避开障碍物、遵守交通信号以及选择正确的转弯以保持行驶方向等决策。这些决策完全取决于它们与安全有效地到达目的地这一目标的契合程度。与基于效用的智能体不同,基于目标的智能体只关注目标的实现,而不考虑效率或优化等其他标准。

__wf_reserved_inherit
图 6. 一辆使用计算机视觉识别周围物体的自动驾驶汽车。

学习代理

如果您熟悉计算机视觉,您可能听说过微调——模型通过从新数据中学习来改进的过程。学习代理以类似的方式工作,随着经验的积累,不断适应和改进。在诸如基于视觉的质量控制之类的应用中,这些代理每次检查都能更好地检测缺陷。这种改进性能的能力在航空等安全和精度至关重要的领域尤为重要。

分层代理

分层代理通过将复杂任务分解为更小、更易于管理的步骤来简化任务。 高级代理监督整个过程,做出战略决策,而低级代理处理特定任务。 当涉及到涉及多个步骤和详细执行的操作时,它会更有效率。

例如,在自动化仓库中,较高级别的机器人可以规划分拣流程,决定哪些物品应该送到哪些区域。同时,较低级别的机器人则专注于使用计算机视觉识别物品,分析诸如尺寸、形状或标签等特征,并将它们整理到正确的箱子中。明确的职责划分有助于系统平稳运行。

__wf_reserved_inherit
图 7. 机器人人工智能代理分拣包裹的示例。

如何开始构建视觉 AI 代理

具有视觉能力的人工智能代理的核心是计算机视觉模型。目前最新且最可靠的计算机视觉模型之一是 Ultralytics YOLO11。YOLO11 以其实时效率和准确性而闻名,使其非常适合计算机视觉任务

以下是使用 YOLO11 的功能构建您自己的人工智能代理所涉及的不同流程:

  • 准备一个数据集 收集和预处理与您的AI代理将执行的任务相关的带标签图像。
  • 自定义训练模型:在您的数据集上专门训练 YOLO11,以提高其针对您的独特应用的准确性和性能。
  • 与决策框架集成: 将训练好的模型连接到使 AI 代理能够根据视觉输入做出决策的系统。
  • 测试和优化: 部署AI代理,测试其性能,收集反馈,并调整模型以提高准确性和可靠性。

主要要点

与计算机视觉集成的AI代理——视觉AI代理——正在通过自动化任务、加快流程和改进决策来改变行业。从控制交通的智慧城市到使用面部识别的安全系统,这些代理正在为常见问题带来新的解决方案。 

它们还可以随着时间的推移不断学习和改进,使其在不断变化的环境中非常有用。借助 YOLO11 等工具,创建和使用这些 AI 代理变得更加容易,从而带来更智能、更高效的解决方案。

加入我们的社区,并查看我们的GitHub仓库,以了解关于人工智能的信息。在我们的解决方案页面上探索计算机视觉在医疗保健领域人工智能在农业领域的各种应用。查看可用的许可选项,立即开始使用!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板