Khám phá cách thức mô hình Hỗn hợp các tác nhân (Mixture of Agents - MoA) tận dụng nhiều mô hình LLM để giải quyết các nhiệm vụ phức tạp. Tìm hiểu cách tích hợp Ultralytics YOLO26 như một tác nhân trực quan trong quy trình làm việc của MoA.
Kiến trúc hỗn hợp các tác nhân (Mixture of Agents - MoA) là một kiến trúc trí tuệ nhân tạo tiên tiến tận dụng nhiều mô hình ngôn ngữ lớn (LLM) hoặc các tác nhân tự chủ để cùng nhau giải quyết các nhiệm vụ phức tạp. Thay vì dựa vào một mô hình duy nhất để tạo ra phản hồi, hệ thống MoA truy vấn đồng thời nhiều mô hình khác nhau. Các tác nhân ban đầu này tạo ra các câu trả lời độc lập, sau đó được chuyển đến một tác nhân tổng hợp hoặc phân tích. Tác nhân tổng hợp sẽ đánh giá, tinh chỉnh và kết hợp các quan điểm đa dạng thành một kết quả đầu ra cuối cùng chất lượng cao. Cách tiếp cận hợp tác này giúp tăng cường đáng kể khả năng suy luận và giảm thiểu những thành kiến hoặc điểm yếu riêng lẻ của các mô hình độc lập, tạo nên một bước tiến lớn trong xử lý ngôn ngữ tự nhiên (NLP) và giải quyết vấn đề.
Mặc dù nghe có vẻ tương tự, nhưng điều quan trọng là phải phân biệt MoA với khái niệm liên quan là Hỗn hợp các chuyên gia (Mixture of Experts - MoE) .
Kiến trúc MoA vượt trội trong các môi trường đòi hỏi khả năng suy luận sâu sắc, kiểm chứng thông tin và tổng hợp dữ liệu đa dạng.
Các hệ thống MoA hiện đại ngày càng đa phương thức, nghĩa là chúng dựa vào các mô hình thị giác máy tính (CV) để nhận biết thế giới vật lý trước khi suy luận về nó. Ví dụ, trong AI trong sản xuất , một tác nhân thị giác có thể kiểm tra nguồn cấp dữ liệu camera trực tiếp và gửi các quan sát thực tế của nó đến một tác nhân suy luận.
Sau đây Python Ví dụ này minh họa cách Ultralytics YOLO26 có thể hoạt động như một "tác nhân trực quan" trong quy trình MoA, trích xuất dữ liệu ngữ cảnh để cung cấp cho các LLM tiếp theo. Các nhà phát triển có thể quản lý và tinh chỉnh các công cụ thị giác chuyên dụng này một cách liền mạch bằng cách sử dụng Nền tảng Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Bằng cách thu hẹp khoảng cách giữa các mô hình thị giác có khả năng cao được xây dựng bằng các framework như PyTorch và các công cụ nhận thức tiên tiến như Google Gemini , hệ sinh thái MoA phản ánh sự hợp tác của con người. Chúng đang nhanh chóng trở thành xương sống của các quy trình RAG tự động , mở đường cho các hệ thống tự động mạnh mẽ và đáng tin cậy hơn.
Bắt đầu hành trình của bạn với tương lai của học máy