视觉 AI

计算机视觉推动了视觉 AI 智能体做出决策的方式

学习 AI 智能体如何使用计算机视觉重塑行业。探索它们在安防、自动驾驶等领域的应用。

ABAbirami Vina

4 min readJanuary 20, 2025

从制造业到零售业，每个行业都面临着各自的流程挑战，找到创新的方法来解决这些问题始终是经营成功企业的关键。最近，AI智能体已成为许多领域中一种流行的解决方案。这些系统不仅仅是分析数据，它们还能采取行动。

例如，制造业中的AI智能体可以实时检测缺陷，并自动启动质量控制措施以保持生产顺利进行。同样，在物流和零售领域，它们可以通过智能监控系统监视多个地点，并立即向团队发出异常活动的警报。

随着这一趋势的发展，AI智能体正在积极改变全球各行各业。全球AI智能体市场在2024年达到51亿美元，预计到2030年将增长至471亿美元。

全球 AI 智能体市场规模概览

图1。全球AI智能体市场规模概览。

推动这些进步的关键技术之一是计算机视觉。通过使机器能够处理和解释视觉数据，视觉AI让AI智能体能够以惊人的准确度执行实时目标检测、实例分割和目标跟踪等计算机视觉任务。它弥合了机器所见与它们如何做出决策之间的差距，使其成为许多AI驱动解决方案中的关键部分。

在本文中，我们将探讨AI智能体及其与计算机视觉的关系。我们还将讨论不同类型的AI智能体以及它们在基于视觉的应用中是如何使用的。让我们开始吧！

Link to this section什么是AI智能体？#

在深入了解基于视觉的AI智能体之前，让我们花点时间了解一下通用的AI智能体，看看这些系统究竟有多么多才多艺。

AI智能体是一种智能系统，无需人类帮助即可理解任务或问题并做出响应。许多AI智能体使用机器学习和自然语言处理（NLP）来处理各种任务，从回答基本问题到管理复杂流程。

有些AI智能体甚至具有随时间学习和改进的能力，这与那些每次更新都需要人类输入的传统AI系统不同。这就是为什么AI智能体正迅速成为AI的重要组成部分。它们可以在无需持续监督的情况下实现任务自动化、做出决策并与环境互动。它们对于管理重复性和耗时的任务特别有用。

例如，你可以在客户服务和酒店业等领域找到AI智能体。在客户服务中，AI智能体正被用于处理退款并提供个性化的产品推荐。同时，在酒店业中，它们可以帮助酒店员工管理客人请求、简化客房服务并向客人推荐附近的景点。这些例子展示了AI智能体如何使日常流程变得更快、更高效。

Link to this section了解视觉AI智能体的工作原理#

接下来，让我们快速了解一下AI智能体的工作原理。虽然每个AI智能体都是独特的，并且专为特定任务而设计，但它们都共享相同的三个主要步骤：感知、决策和行动。

首先，在感知步骤中，AI智能体从不同来源收集信息以了解正在发生的事情。接下来是决策。基于收集到的信息，它们使用算法来分析情况并确定最佳行动方案。最后是行动。一旦做出决定，它们就会执行该决定——无论是回答问题、完成任务，还是标记问题以便人类处理。

这听起来可能很简单，但根据AI智能体的类型，为了使这些步骤起作用，幕后通常有很多工作要做。从分析复杂数据到使用先进的机器学习模型，每个AI智能体都被构建为以自己的方式处理特定任务。

例如，虽然许多AI智能体专注于通过NLP处理语言，但其他被称为视觉AI智能体的系统集成了计算机视觉来处理视觉数据。利用像Ultralytics YOLO11这样的先进计算机视觉模型，视觉AI智能体可以执行更精确的图像分析。

使用 YOLO11 计算图像中的苹果数量

图2。使用YOLO11在图像中统计苹果数量的示例。

Link to this section自动驾驶汽车中的视觉AI智能体#

让我们以自动驾驶汽车为例，看看视觉AI智能体如何通过上述三个主要步骤发挥作用：

感知： 自动驾驶中的视觉AI智能体通过车辆上安装的摄像头和传感器收集视觉数据。这些数据包括周围环境的图像和视频，例如其他车辆、行人、交通信号和道路标志。
决策： AI智能体使用YOLO11等模型处理这些视觉数据。它识别汽车和行人等对象，检测障碍物或突然的变道，并识别交通流和信号状态等模式。这有助于汽车实时了解道路状况。
行动： 基于分析结果，AI智能体采取行动，例如转向以避开障碍物、调整速度或在红灯处停车。这些决定是快速做出的，以确保安全高效的驾驶。

Waymo的自动驾驶汽车就是这项技术的绝佳示例。它们利用视觉AI智能体来了解周围环境，做出实时决策，并在无需人类输入的情况下安全、高效地在道路上行驶。

Waymo 基于 AI 智能体的自动驾驶出租车

图3。 Waymo基于AI智能体的自动驾驶出租车。

Link to this section视觉AI智能体的类型#

现在我们已经了解了AI智能体的工作原理以及它们如何使用计算机视觉，让我们看看不同类型的AI智能体。每种类型都是为特定任务设计的，从简单的行动到更复杂的决策和学习。

Link to this section简单反射型智能体#

简单反射型智能体是最基本的AI智能体类型。它们基于当前情况对特定输入做出预定义的操作，而不考虑任何历史记录或未来结果。这些智能体通常使用简单的“如果-那么”规则来指导其行为。

就图像分析而言，简单反射型智能体可能被编程为检测特定颜色（例如红色）并触发即时操作（例如突出显示或计算红色对象）。虽然这对于简单的任务有效，但在更复杂的环境中表现不足，因为智能体不会从以往的经验中学习或调整。

Link to this section基于模型的反射型智能体#

基于模型的反射型智能体比简单反射型智能体更先进，因为它们使用环境的内部模型来更好地理解情况。这种模型使它们能够处理丢失或不完整的信息，并做出更明智的决策。

以AI安全监控摄像头系统为例。集成在其中的视觉AI智能体可以使用计算机视觉实时分析正在发生的事情。它们可以将动作和行为与正常行为的模型进行比较，从而帮助它们发现异常活动（如商店盗窃），并更准确地标记潜在的安全威胁。

利用计算机视觉检测盗窃行为

图4。使用计算机视觉检测盗窃的示例。

Link to this section效用型智能体#

考虑一个用于作物监测的效用型无人机。它会调整飞行路径以覆盖更多区域，同时避开障碍物，并选择最佳的作业路线。这意味着无人机会评估多种潜在行动（例如优先覆盖哪个区域或如何高效导航），并选择使其效用最大化的行动。

同样，效用型智能体旨在从多种选择中选择最佳行动，以获得最大的利益或成果。为此设计的视觉AI智能体可以处理和分析不同的视觉输入（如图像或传感器数据），并根据预定义的标准选择最有用的结果。

用于作物监测的实用型无人机

图5。效用型无人机可用于作物监测。

Link to this section目标型智能体#

目标型智能体与效用型智能体相似，因为两者都旨在实现特定目标。然而，目标型智能体纯粹专注于那些使其更接近既定目标的行动。它们评估每项行动是否有助于实现目标，而不衡量诸如整体价值或权衡等其他因素。

例如，当目标是到达目的地时，自动驾驶汽车就充当目标型智能体。它处理来自AI摄像头和传感器的数据，以做出避开障碍物、遵守交通信号和选择正确的转弯方向以保持路线等决定。这些决策完全由它们在多大程度上符合安全高效到达目标这一意图来引导。与效用型智能体不同，目标型智能体仅关注目标达成，而不考虑效率或优化等额外标准。

自动驾驶汽车利用计算机视觉识别周围物体