Large Action Models (LAM)
Khám phá các Large Action Models (LAM) và cách chúng thúc đẩy các tác nhân AI tự hành. Tìm hiểu cách tích hợp Ultralytics YOLO26 cho các quy trình làm việc từ thị giác đến hành động và tự động hóa tác vụ.
Large Action Models (LAM) là một lớp nâng cao của trí tuệ nhân tạo tạo sinh, được thiết kế để vượt xa khả năng tạo văn bản bằng cách thực hiện các tác vụ một cách tự chủ và tương tác với các môi trường kỹ thuật số. Không giống như các model truyền thống chỉ xử lý và tạo văn bản thuần túy, LAM đóng vai trò là động cơ nhận thức cốt lõi cho AI agents, giúp chuyển đổi mục đích của con người thành các hành động cụ thể gồm nhiều bước. Bằng cách thu hẹp khoảng cách giữa việc hiểu ngôn ngữ tự nhiên và thực thi trong thế giới thực, các model này đại diện cho một bước tiến đáng kể hướng tới Artificial General Intelligence (AGI) và các hệ thống có tính tự chủ cao.
Link to this sectionCách thức hoạt động của Large Action Models#
LAM được xây dựng dựa trên kiến trúc nền tảng của các foundation models truyền thống, nhưng được huấn luyện chuyên biệt để giao tiếp với phần mềm, API và các môi trường web. Bằng cách sử dụng các kỹ thuật như reinforcement learning và gọi hàm (function calling), LAM có thể chia nhỏ một yêu cầu phức tạp của người dùng thành các bước logic, điều hướng giao diện người dùng đồ họa và thực thi các API endpoints. Ví dụ, những phát triển gần đây từ Anthropic's Claude 3.5 computer use và Salesforce's xLAM family cho thấy cách các hệ thống này có thể tự động nhấp vào các nút, điền vào biểu mẫu và quản lý các luồng công việc giống như cách một người điều khiển thao tác.
Khi kết hợp với các hệ thống computer vision, LAM trở nên mạnh mẽ hơn nữa. Các dữ liệu đầu vào hình ảnh có thể được xử lý bởi các model hiệu suất cao như Ultralytics YOLO26, cho phép LAM "nhìn thấy" môi trường xung quanh, diễn giải ngữ cảnh hình ảnh và kích hoạt các hành động lập trình cụ thể dựa trên những gì nó phát hiện được.
Link to this sectionCác ứng dụng trong thực tế#
LAM đang thay đổi cách các ngành công nghiệp tiếp cận việc tự động hóa tác vụ, chuyển dịch từ hỗ trợ thụ động sang thực thi chủ động.
- AI in Retail và Chăm sóc khách hàng: Thay vì chỉ đơn thuần trả lời các câu hỏi của khách hàng, LAM có thể tự động xử lý việc hoàn trả sản phẩm. Nếu người dùng yêu cầu hủy đơn hàng, model có thể điều hướng phần mềm thanh toán của công ty, xác minh chính sách, hoàn tiền và cập nhật cơ sở dữ liệu hàng tồn kho mà không cần sự can thiệp của con người.
- AI in Healthcare Administration: Trong môi trường lâm sàng, LAM điều phối các quy trình công việc phức tạp. Chúng có thể trích xuất các yêu cầu của bệnh nhân, đối chiếu lịch làm việc của bác sĩ, tự động cập nhật Hồ sơ sức khỏe điện tử (EHR) thông qua phần mềm y tế nội bộ và hoàn tất việc đặt lịch hẹn.
Link to this sectionTự động hóa các luồng công việc thị giác bằng mã nguồn#
LAM thường được tích hợp với các model thị giác để tự động hóa việc kiểm tra hình ảnh. Ví dụ Python dưới đây minh họa cách một luồng công việc LAM giả định có thể tận dụng ultralytics để quét một hình ảnh và kích hoạt hành động kiểm kê tự động dựa trên kết quả object detection.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")Người dùng có thể triển khai và giám sát các loại luồng công việc tích hợp thị giác - hành động này một cách liền mạch bằng cách sử dụng Ultralytics Platform, nền tảng cung cấp cơ sở hạ tầng đám mây mạnh mẽ cho các giải pháp AI hiện đại.
Link to this sectionPhân biệt các khái niệm liên quan#
Để hiểu rõ toàn diện về bối cảnh AI hiện đại, việc phân biệt LAM với các thuật ngữ liên quan chặt chẽ khác là rất hữu ích:
- LAM so với Large Language Model (LLM): LLM được thiết kế nghiêm ngặt để xử lý, tóm tắt và tạo ngôn ngữ, giống như một trình dự đoán văn bản tiên tiến. LAM kết hợp khả năng hiểu ngôn ngữ này nhưng được thiết kế đặc biệt để tương tác với các công cụ bên ngoài và hoàn thành các hành động kỹ thuật số.
- LAM so với Agentic AI: "Agentic AI" mô tả hệ thống tổng thể hoặc thực thể phần mềm hoạt động một cách tự chủ. Large Action Model là mạng thần kinh bên dưới—đóng vai trò là "bộ não"—cung cấp cho tác nhân (agent) khả năng lập kế hoạch và thực hiện các hành động đó.
- LAM so với Agentic RAG: Agentic RAG tập trung vào việc tự động truy xuất và tổng hợp thông tin bên ngoài để cải thiện độ chính xác của câu trả lời được tạo ra. LAM tập trung vào việc thao tác với các hệ thống và thay đổi trạng thái (như đặt chuyến bay hoặc di chuyển tệp tin) thay vì chỉ truy xuất dữ liệu.






