YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Mô hình hành động quy mô lớn (LAM)

Khám phá mô hình hành động quy mô lớn (LAM) và cách chúng điều khiển các tác nhân AI tự động. Tìm hiểu cách tích hợp Ultralytics vào quy trình làm việc từ nhận diện hình ảnh đến thực thi hành động và tự động hóa tác vụ.

Các Mô hình Hành động Quy mô Lớn (LAM) là một loại hình trí tuệ nhân tạo tạo sinh tiên tiến, được thiết kế để vượt ra ngoài khả năng tạo văn bản bằng cách tự động thực hiện các tác vụ và tương tác với môi trường kỹ thuật số. Khác với các mô hình truyền thống chỉ xử lý và tạo ra văn bản, LAM đóng vai trò là động cơ nhận thức cốt lõi cho các tác nhân AI, chuyển đổi ý định của con người thành các hành động cụ thể, gồm nhiều bước. Bằng cách thu hẹp khoảng cách giữa việc hiểu ngôn ngữ tự nhiên và thực thi trong thế giới thực, các mô hình này đại diện cho một bước nhảy vọt đáng kể hướng tới Trí tuệ Nhân tạo Tổng quát (AGI) và các hệ thống có mức độ tự chủ cao.

Cách thức hoạt động của các mô hình hành động quy mô lớn

Các mô hình LAM được xây dựng dựa trên kiến trúc nền tảng của các mô hình nền tảng truyền thống, nhưng chúng được huấn luyện chuyên biệt để tương tác với phần mềm, API và môi trường web. Bằng cách sử dụng các kỹ thuật như học tăng cường và gọi hàm, một mô hình LAM có thể chia một yêu cầu phức tạp của người dùng thành các bước logic, điều hướng giao diện người dùng đồ họa và thực thi các điểm cuối API. Ví dụ, những phát triển gần đây từ mô hình máy tính Claude 3.5Anthropic gia đình xLAM của Salesforce cho thấy cách các hệ thống này có thể tự động nhấp vào các nút, điền vào biểu mẫu và quản lý quy trình công việc giống như một người vận hành thực sự.

Khi kết hợp với các hệ thống thị giác máy tính, các mô hình LAM trở nên mạnh mẽ hơn bao giờ hết. Dữ liệu hình ảnh có thể được xử lý bởi các mô hình hiệu quả cao như Ultralytics , cho phép mô hình LAM “nhìn thấy” môi trường xung quanh, phân tích bối cảnh hình ảnh và kích hoạt các hành động lập trình cụ thể dựa trên những gì nó phát hiện được.

Các Ứng dụng Thực tế

Các hệ thống học máy (LAMs) đang thay đổi cách các ngành công nghiệp tiếp cận việc tự động hóa công việc, chuyển từ hỗ trợ thụ động sang thực thi chủ động.

  • Trí tuệ nhân tạo trong lĩnh vực bán lẻ và hỗ trợ khách hàng: Thay vì chỉ đơn thuần trả lời các câu hỏi của khách hàng, một mô hình ngôn ngữ tự động (LAM) có thể tự động xử lý việc trả hàng. Nếu người dùng yêu cầu hủy đơn hàng, mô hình có thể truy cập phần mềm thanh toán của công ty, xác minh chính sách, thực hiện hoàn tiền và cập nhật cơ sở dữ liệu kho hàng mà không cần sự can thiệp của con người.
  • Trí tuệ nhân tạo trong quản lýy tế: Trong môi trường lâm sàng, các hệ thống quản lý lịch trình (LAMs) điều phối các quy trình làm việc phức tạp. Chúng có thể thu thập yêu cầu của bệnh nhân, đối chiếu tình trạng sẵn sàng của bác sĩ, tự động cập nhật Hồ sơ y tế điện tử (EHR) thông qua phần mềm y tế nội bộ, và hoàn tất việc lên lịch hẹn.

Tự động hóa quy trình xử lý hình ảnh bằng mã

Các mô hình LAM thường được tích hợp với các mô hình thị giác máy tính để tự động hóa quá trình kiểm tra bằng hình ảnh. Python sau đây minh họa cách một quy trình làm việc giả định của LAM có thể tận dụng ultralytics để quét một hình ảnh và kích hoạt một hành động quản lý kho tự động dựa trên phát hiện đối tượng kết quả.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")

# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")

# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
    detected_items = len(result.boxes)
    if detected_items < 10:
        print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")

Người dùng có thể triển khai và giám sát các quy trình làm việc tích hợp giữa hình ảnh và hành động này một cách liền mạch thông qua Ultralytics , nền tảng này cung cấp cơ sở hạ tầng đám mây mạnh mẽ cho các giải pháp AI hiện đại.

Phân biệt các khái niệm liên quan

Để hiểu rõ bức tranh tổng quan về trí tuệ nhân tạo (AI) hiện đại, việc phân biệt các mô hình ngôn ngữ lớn (LAMs) với các thuật ngữ có liên quan khác là rất hữu ích:

  • LAM so với Mô hình ngôn ngữ quy mô lớn (LLM): LLM được thiết kế chuyên biệt để xử lý, tóm tắt và tạo ra ngôn ngữ, tương tự như một công cụ dự đoán văn bản cấp cao. LAM tích hợp khả năng hiểu ngôn ngữ này nhưng được thiết kế đặc biệt để tương tác với các công cụ bên ngoài và thực hiện các tác vụ kỹ thuật số.
  • LAM so với Trí tuệ nhân tạo đại lý (Agentic AI): "Trí tuệ nhân tạo đại lý" dùng để chỉ hệ thống tổng thể hoặc thực thể phần mềm hoạt động một cách tự chủ. Mô hình Hành động Lớn (Large Action Model) là mạng nơ-ron nền tảng — "bộ não" — mang lại cho đại lý khả năng lập kế hoạch và thực hiện các hành động đó.
  • LAM so với Agentic RAG: Agentic RAG tập trung vào việc tự động truy xuất và tổng hợp thông tin bên ngoài để nâng cao độ chính xác của câu trả lời được tạo ra. Trong khi đó, LAM tập trung vào việc thao tác với các hệ thống và thay đổi trạng thái (như đặt vé máy bay hoặc di chuyển tệp tin) thay vì chỉ đơn thuần là truy xuất dữ liệu.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy