深圳Yolo 视觉
深圳
立即加入
词汇表

大型动作模型(LAM)

了解大型动作模型(LAM)及其如何驱动自主人工智能代理。学习如何集成Ultralytics ,以实现视觉到动作的工作流和任务自动化。

大型动作模型(LAM)是一种先进的生成式人工智能类别,旨在突破文本生成的局限, 通过自主执行任务并与数字环境交互来实现更多功能。 与仅 严格处理和生成文本的传统模型不同,LAM作为AI代理的核心认知引擎, 将人类意图转化为具体的、 多步骤行动。通过弥合自然语言理解与现实世界执行之间的鸿沟,这些模型 标志着向 通用人工智能(AGI) 及高度自主系统迈出了重要一步。

大型动作模型的工作原理

LAM(语言辅助模型)基于传统 基础模型的架构构建,但它们经过专门训练, 能够与软件、API 和网络环境进行交互。通过使用 强化学习和函数调用等技术, LAM 能够将复杂的用户请求分解为逻辑步骤,操作图形用户界面,并调用 API 端点。 例如Anthropic Claude 3.5 计算机应用和 Salesforce 的 xLAM 系列等最新进展, 展示了这些系统如何像人类操作员一样 自主点击按钮、填写表单并管理工作流。

当与计算机视觉系统结合使用时,LAMs 的功能将更加强大。视觉输入可通过高效模型(如 Ultralytics )进行处理,从而使LAM能够“观察”其 所处的环境,解读视觉上下文,并根据检测结果触发特定的程序化操作。

实际应用

LAMs正在改变各行业处理任务自动化的方式,使其从被动辅助转向主动执行。

  • 人工智能在零售与客户支持中的应用 LAM 不仅能回答客户的问题,还能自主处理产品退货。如果用户要求 取消订单,该模型可在无需人工干预的情况下,操作公司的计费软件、核验退换货政策、办理退款,并 更新库存数据库。
  • 医疗管理中的人工智能 在临床环境中,LAMs负责协调复杂的工作流程。它们能够提取患者需求,核对医生 的空闲时间,通过内部医疗软件自动更新电子健康记录(EHR),并最终确定 预约安排。

使用代码实现视觉工作流自动化

LAM 通常与视觉模型集成,以实现视觉检测的自动化。以下Python 演示了一个假设的 LAM 工作流如何利用 ultralytics 扫描一张图片,并根据 该图片触发一项 自动库存操作 物体检测 结果

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

用户可以借助 Ultralytics 无缝部署和监控此类集成化的可视化-行动工作流,该平台为 现代人工智能解决方案提供了强大的云基础设施。

区分相关概念

要全面了解现代人工智能的发展现状,有必要将大型语言模型(LAMs)与其他相关术语区分开来:

  • LAM 与 大型语言模型(LLM) 大型 语言模型(LLM)专为处理、摘要和生成语言而设计,类似于一种高度先进的文本 预测器。LAM 不仅具备这种语言理解能力,还专门设计用于与外部 工具交互并执行数字操作。
  • LAM 与代理式人工智能(Agentic AI)的对比:“代理式人工智能”指代能够 自主运行的整体系统或软件实体。而大型动作模型(LAM)则是其底层的神经网络——即“大脑”——赋予 该代理规划和执行这些动作的能力。
  • LAM 与Agentic RAGAgentic RAG 侧重于自主检索和合成外部信息,以提高生成的 答案的准确性。LAM 则侧重于操作系统和改变状态(例如预订机票或移动文件), 而非仅仅检索数据。

让我们一起共建AI的未来!

开启您的机器学习未来之旅