Large Action Models (LAM)
探索大型动作模型 (LAM) 以及它们如何驱动自主 AI 代理。学习集成 Ultralytics YOLO26 以实现视觉到动作的工作流和任务自动化。
大型动作模型 (LAM) 是一类先进的生成式人工智能,旨在超越文本生成的范畴,通过自主执行任务和与数字环境交互来工作。与严格处理和生成文本的传统模型不同,LAM 作为 AI 智能体 的核心认知引擎,能够将人类意图转化为具体的、多步骤的动作。通过架起自然语言理解与现实世界执行之间的桥梁,这些模型代表了向 通用人工智能 (AGI) 和高度自主系统迈出的重要一步。
Link to this section大型动作模型的工作原理#
LAM 构建在传统的 基础模型 架构之上,但它们经过专门训练,可以与软件、API 和 Web 环境进行接口对接。通过使用 强化学习 和函数调用等技术,LAM 可以将复杂的用户请求分解为逻辑步骤,导航图形用户界面,并执行 API 端点。例如,Anthropic 的 Claude 3.5 computer use 和 Salesforce 的 xLAM 系列 的最新进展展示了这些系统如何像人类操作员一样自主点击按钮、填写表单并管理工作流。
当与 计算机视觉 系统配对时,LAM 会变得更加强大。视觉输入可以由像 Ultralytics YOLO26 这样高效的模型进行处理,使 LAM 能够“看到”其环境,解读视觉上下文,并根据其检测到的内容触发特定的程序化动作。
Link to this section实际应用#
LAM 正在改变各行业实现任务自动化的方式,从被动辅助转向主动执行。
- 零售业 AI 与客户支持: LAM 不仅仅是回答客户问题,还能自主处理产品退货。如果用户要求取消订单,模型可以导航到公司的计费软件、验证策略、开具退款并更新库存数据库,无需人工干预。
- 医疗保健 AI 管理: 在临床环境中,LAM 可以协调复杂的工作流。它们能够提取患者请求,交叉核对医生空闲时间,通过内部医疗软件自动更新电子健康记录 (EHR),并完成预约调度。
Link to this section使用代码自动化视觉工作流#
LAM 经常与视觉模型集成以实现视觉检测自动化。以下 Python 示例演示了假设的 LAM 工作流如何利用 ultralytics 扫描图像,并根据 目标检测 结果触发自动库存动作。
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")用户可以使用 Ultralytics Platform 无缝部署和监控这些类型的集成式视觉动作工作流,该平台为现代 AI 解决方案提供了强大的云基础设施。
Link to this section区分相关概念#
为了全面了解现代 AI 格局,区分 LAM 与其他密切相关的术语非常有帮助:
- LAM 与 大型语言模型 (LLM): LLM 严格设计用于处理、总结和生成语言,非常像一种高度先进的文本预测器。LAM 结合了这种语言理解能力,但专门设计用于与外部工具交互并完成数字动作。
- LAM 与智能体 AI (Agentic AI): “智能体 AI”描述了自主运行的整体系统或软件实体。大型动作模型是底层的神经网络——即赋予智能体规划和执行这些动作能力的“大脑”。
- LAM 与 智能体 RAG (Agentic RAG): 智能体 RAG 专注于自主检索和综合外部信息,以提高生成答案的准确性。LAM 专注于操纵系统和改变状态(例如预订航班或移动文件),而不仅仅是检索数据。






