Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hỗn hợp các tác nhân (Cơ chế tác động)

Khám phá cách thức mô hình Hỗn hợp các tác nhân (Mixture of Agents - MoA) tận dụng nhiều mô hình LLM để giải quyết các nhiệm vụ phức tạp. Tìm hiểu cách tích hợp Ultralytics YOLO26 như một tác nhân trực quan trong quy trình làm việc của MoA.

Kiến trúc hỗn hợp các tác nhân (Mixture of Agents - MoA) là một kiến ​​trúc trí tuệ nhân tạo tiên tiến tận dụng nhiều mô hình ngôn ngữ lớn (LLM) hoặc các tác nhân tự chủ để cùng nhau giải quyết các nhiệm vụ phức tạp. Thay vì dựa vào một mô hình duy nhất để tạo ra phản hồi, hệ thống MoA truy vấn đồng thời nhiều mô hình khác nhau. Các tác nhân ban đầu này tạo ra các câu trả lời độc lập, sau đó được chuyển đến một tác nhân tổng hợp hoặc phân tích. Tác nhân tổng hợp sẽ đánh giá, tinh chỉnh và kết hợp các quan điểm đa dạng thành một kết quả đầu ra cuối cùng chất lượng cao. Cách tiếp cận hợp tác này giúp tăng cường đáng kể khả năng suy luận và giảm thiểu những thành kiến ​​hoặc điểm yếu riêng lẻ của các mô hình độc lập, tạo nên một bước tiến lớn trong xử lý ngôn ngữ tự nhiên (NLP) và giải quyết vấn đề.

Hỗn hợp các tác nhân so với hỗn hợp các chuyên gia

Mặc dù nghe có vẻ tương tự, nhưng điều quan trọng là phải phân biệt MoA với khái niệm liên quan là Hỗn hợp các chuyên gia (Mixture of Experts - MoE) .

  • Mô hình hỗn hợp các chuyên gia (Mixture of Experts - MoE): Hoạt động trong một kiến ​​trúc mạng nơ-ron duy nhất. Nó sử dụng cơ chế định tuyến để chỉ kích hoạt các lớp con chuyên biệt (chuyên gia) cho mỗi token trong quá trình suy luận. Điều này tối ưu hóa hiệu quả tính toán trong khi vẫn duy trì số lượng tham số cao.
  • Mô hình hỗn hợp các tác nhân (Mixture of Agents - MoA): Hoạt động ở cấp độ mô hình hoặc hệ thống. Nó bao gồm các tác nhân AI hoàn toàn riêng biệt —thường được xây dựng trên các mô hình nền tảng khác nhau—tương tác trong một quy trình. MoA hoạt động giống như một tập hợp mô hình kết hợp với quy trình đánh giá thông minh, như được mô tả chi tiết trong nghiên cứu hệ thống đa tác nhân gần đây.

Các Ứng dụng Thực tế

Kiến trúc MoA vượt trội trong các môi trường đòi hỏi khả năng suy luận sâu sắc, kiểm chứng thông tin và tổng hợp dữ liệu đa dạng.

  • Kỹ thuật phần mềm phức tạp: Trong phát triển phần mềm, một hệ thống MoA có thể sử dụng Anthropic Claude để viết logic cốt lõi, OpenAI GPT-4o để tạo các bài kiểm tra đơn vị và một mô hình cục bộ để kiểm tra an ninh. Một tác nhân tổng hợp cuối cùng sẽ xem xét mã kết hợp, kiểm tra nó và xuất ra một kịch bản được tinh chỉnh, không có lỗi.
  • Chẩn đoán y tế tự động: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , một quy trình chẩn đoán dựa trên cơ chế hoạt động (MoA) có thể triển khai các tác nhân chuyên biệt để xem xét tiền sử bệnh án, phân tích kết quả xét nghiệm và xử lý hình ảnh y tế. Tác nhân tổng hợp sẽ tập hợp các phát hiện này để hỗ trợ bác sĩ đưa ra chẩn đoán toàn diện, giảm đáng kể nguy cơ sai sót của con người.

Tích hợp công nghệ thị giác vào quy trình làm việc của MoA

Các hệ thống MoA hiện đại ngày càng đa phương thức, nghĩa là chúng dựa vào các mô hình thị giác máy tính (CV) để nhận biết thế giới vật lý trước khi suy luận về nó. Ví dụ, trong AI trong sản xuất , một tác nhân thị giác có thể kiểm tra nguồn cấp dữ liệu camera trực tiếp và gửi các quan sát thực tế của nó đến một tác nhân suy luận.

Sau đây Python Ví dụ này minh họa cách Ultralytics YOLO26 có thể hoạt động như một "tác nhân trực quan" trong quy trình MoA, trích xuất dữ liệu ngữ cảnh để cung cấp cho các LLM tiếp theo. Các nhà phát triển có thể quản lý và tinh chỉnh các công cụ thị giác chuyên dụng này một cách liền mạch bằng cách sử dụng Nền tảng Ultralytics .

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

Bằng cách thu hẹp khoảng cách giữa các mô hình thị giác có khả năng cao được xây dựng bằng các framework như PyTorch và các công cụ nhận thức tiên tiến như Google Gemini , hệ sinh thái MoA phản ánh sự hợp tác của con người. Chúng đang nhanh chóng trở thành xương sống của các quy trình RAG tự động , mở đường cho các hệ thống tự động mạnh mẽ và đáng tin cậy hơn.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy