Khám phá mô hình hành động quy mô lớn (LAM) và cách chúng điều khiển các tác nhân AI tự động. Tìm hiểu cách tích hợp Ultralytics vào quy trình làm việc từ nhận diện hình ảnh đến thực thi hành động và tự động hóa tác vụ.
Các Mô hình Hành động Quy mô Lớn (LAM) là một loại hình trí tuệ nhân tạo tạo sinh tiên tiến, được thiết kế để vượt ra ngoài khả năng tạo văn bản bằng cách tự động thực hiện các tác vụ và tương tác với môi trường kỹ thuật số. Khác với các mô hình truyền thống chỉ xử lý và tạo ra văn bản, LAM đóng vai trò là động cơ nhận thức cốt lõi cho các tác nhân AI, chuyển đổi ý định của con người thành các hành động cụ thể, gồm nhiều bước. Bằng cách thu hẹp khoảng cách giữa việc hiểu ngôn ngữ tự nhiên và thực thi trong thế giới thực, các mô hình này đại diện cho một bước nhảy vọt đáng kể hướng tới Trí tuệ Nhân tạo Tổng quát (AGI) và các hệ thống có mức độ tự chủ cao.
Các mô hình LAM được xây dựng dựa trên kiến trúc nền tảng của các mô hình nền tảng truyền thống, nhưng chúng được huấn luyện chuyên biệt để tương tác với phần mềm, API và môi trường web. Bằng cách sử dụng các kỹ thuật như học tăng cường và gọi hàm, một mô hình LAM có thể chia một yêu cầu phức tạp của người dùng thành các bước logic, điều hướng giao diện người dùng đồ họa và thực thi các điểm cuối API. Ví dụ, những phát triển gần đây từ mô hình máy tính Claude 3.5Anthropic và gia đình xLAM của Salesforce cho thấy cách các hệ thống này có thể tự động nhấp vào các nút, điền vào biểu mẫu và quản lý quy trình công việc giống như một người vận hành thực sự.
Khi kết hợp với các hệ thống thị giác máy tính, các mô hình LAM trở nên mạnh mẽ hơn bao giờ hết. Dữ liệu hình ảnh có thể được xử lý bởi các mô hình hiệu quả cao như Ultralytics , cho phép mô hình LAM “nhìn thấy” môi trường xung quanh, phân tích bối cảnh hình ảnh và kích hoạt các hành động lập trình cụ thể dựa trên những gì nó phát hiện được.
Các hệ thống học máy (LAMs) đang thay đổi cách các ngành công nghiệp tiếp cận việc tự động hóa công việc, chuyển từ hỗ trợ thụ động sang thực thi chủ động.
Các mô hình LAM thường được tích hợp với các mô hình thị giác máy tính để tự động hóa quá trình kiểm tra bằng hình ảnh. Python sau đây
minh họa cách một quy trình làm việc giả định của LAM có thể tận dụng ultralytics để quét một hình ảnh và kích hoạt một
hành động quản lý kho tự động dựa trên
phát hiện đối tượng kết quả.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for an agentic vision task
model = YOLO("yolo26n.pt")
# The LAM commands the model to scan a warehouse shelf image
results = model.predict("inventory_shelf.jpg")
# The LAM extracts actionable data to autonomously trigger a supply reorder
for result in results:
detected_items = len(result.boxes)
if detected_items < 10:
print(f"Low inventory ({detected_items} items). Action triggered: Reordering supplies via API.")
Người dùng có thể triển khai và giám sát các quy trình làm việc tích hợp giữa hình ảnh và hành động này một cách liền mạch thông qua Ultralytics , nền tảng này cung cấp cơ sở hạ tầng đám mây mạnh mẽ cho các giải pháp AI hiện đại.
Để hiểu rõ bức tranh tổng quan về trí tuệ nhân tạo (AI) hiện đại, việc phân biệt các mô hình ngôn ngữ lớn (LAMs) với các thuật ngữ có liên quan khác là rất hữu ích:

Bắt đầu hành trình của bạn với tương lai của học máy