Mixture of Agents (MoA)
Khám phá cách Mixture of Agents (MoA) tận dụng nhiều LLMs để giải quyết các tác vụ phức tạp. Tìm hiểu cách tích hợp Ultralytics YOLO26 như một tác nhân hình ảnh trong các quy trình làm việc MoA.
Mixture of Agents (MoA) là một kiến trúc trí tuệ nhân tạo tiên tiến tận dụng nhiều large language models (LLMs) hoặc các tác nhân tự trị để cùng nhau giải quyết các tác vụ phức tạp. Thay vì dựa vào một model duy nhất để tạo phản hồi, hệ thống MoA truy vấn đồng thời nhiều model riêng biệt. Các tác nhân ban đầu này đưa ra câu trả lời độc lập, sau đó được chuyển đến một tác nhân tổng hợp hoặc tác nhân tổng hợp (synthesizer agent). Tác nhân tổng hợp đánh giá, tinh chỉnh và kết hợp các góc nhìn đa dạng thành một kết quả cuối cùng có chất lượng cao. Cách tiếp cận cộng tác này giúp tăng cường đáng kể khả năng suy luận và giảm thiểu các sai lệch hoặc điểm yếu riêng lẻ của các model độc lập, đại diện cho một bước tiến lớn trong natural language processing (NLP) và giải quyết vấn đề.
Link to this sectionMixture of Agents so với Mixture of Experts#
Mặc dù nghe có vẻ tương đồng, việc phân biệt MoA với khái niệm liên quan là Mixture of Experts (MoE) là rất quan trọng.
- Mixture of Experts (MoE): Hoạt động trong một neural network architecture duy nhất. Nó sử dụng cơ chế định tuyến để chỉ kích hoạt các sub-layer chuyên biệt (các chuyên gia) cụ thể cho mỗi token trong quá trình suy luận (inference). Điều này tối ưu hóa hiệu quả tính toán trong khi vẫn duy trì số lượng tham số lớn.
- Mixture of Agents (MoA): Hoạt động ở cấp độ model hoặc hệ thống. Nó bao gồm các AI agents hoàn toàn tách biệt—thường được xây dựng trên các model nền tảng khác nhau—tương tác trong một pipeline. MoA hoạt động giống như một model ensemble kết hợp với một quy trình đánh giá thông minh, như đã trình bày chi tiết trong các nghiên cứu multi-agent system research gần đây.
Link to this sectionCác ứng dụng trong thực tế#
Các kiến trúc MoA vượt trội trong các môi trường yêu cầu khả năng suy luận sâu, kiểm chứng dữ kiện và tổng hợp dữ liệu đa dạng.
- Kỹ thuật phần mềm phức tạp: Trong phát triển phần mềm, một hệ thống MoA có thể sử dụng Anthropic Claude để viết logic cốt lõi, OpenAI GPT-4o để tạo unit test, và một model cục bộ để kiểm toán bảo mật. Một tác nhân tổng hợp cuối cùng sẽ xem xét code kết hợp, kiểm tra và xuất ra một script tinh chỉnh, không có lỗi.
- Chẩn đoán y tế tự động: Trong lĩnh vực AI in healthcare, một pipeline MoA chẩn đoán có thể triển khai các tác nhân chuyên biệt để xem xét bệnh sử của bệnh nhân, phân tích kết quả xét nghiệm và xử lý hình ảnh y tế. Tác nhân tổng hợp sẽ tập hợp những phát hiện này để hỗ trợ bác sĩ đưa ra chẩn đoán toàn diện, giảm đáng kể khả năng xảy ra sai sót của con người.
Link to this sectionTích hợp thị giác vào các luồng công việc MoA#
Các hệ thống MoA hiện đại ngày càng đa phương thức, nghĩa là chúng dựa vào các model computer vision (CV) để nhận thức thế giới vật lý trước khi suy luận về nó. Ví dụ, trong AI in manufacturing, một tác nhân thị giác có thể kiểm tra nguồn cấp dữ liệu camera trực tiếp và gửi các quan sát thực tế của nó cho một tác nhân suy luận.
Ví dụ về Python sau đây minh họa cách Ultralytics YOLO26 có thể đóng vai trò là một "tác nhân thị giác" trong một pipeline MoA, trích xuất dữ liệu ngữ cảnh để đưa vào các LLM hạ nguồn. Các nhà phát triển có thể quản lý và tinh chỉnh các công cụ thị giác chuyên biệt này một cách liền mạch bằng cách sử dụng Ultralytics Platform.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")Bằng cách thu hẹp khoảng cách giữa các model thị giác có khả năng cao được xây dựng với các framework như PyTorch và các công cụ nhận thức tiên tiến như Google Gemini, các hệ sinh thái MoA phản ánh sự hợp tác của con người. Chúng đang nhanh chóng trở thành nền tảng của các pipeline Agentic RAG, mở đường cho các hệ thống tự trị mạnh mẽ và đáng tin cậy hơn.






