Mixture of Agents (MoA)
Узнай, как смесь агентов (MoA) использует несколько LLM для решения сложных задач. Научись интегрировать Ultralytics YOLO26 в качестве визуального агента в рабочие процессы MoA.
Mixture of Agents (MoA) — это передовая архитектура искусственного интеллекта, которая использует множество больших языковых моделей (LLM) или автономных агентов для совместного решения сложных задач. Вместо того чтобы полагаться на одну модель для генерации ответа, система MoA одновременно запрашивает несколько различных моделей. Эти первичные агенты создают независимые ответы, которые затем передаются агенту-агрегатору или синтезатору. Агрегатор оценивает, уточняет и объединяет разнообразные точки зрения в единый высококачественный финальный результат. Такой подход к совместной работе значительно расширяет возможности логического вывода и нивелирует индивидуальные предвзятости или слабые стороны отдельных моделей, что представляет собой важный шаг вперед в обработке естественного языка (NLP) и решении задач.
Link to this sectionMixture of Agents против Mixture of Experts#
Хотя эти понятия звучат похоже, критически важно различать MoA и связанную с ним концепцию Mixture of Experts (MoE).
- Mixture of Experts (MoE): Работает в рамках одной архитектуры нейронной сети. Она использует механизм маршрутизации для активации только специфических, специализированных подслоев (экспертов) для каждого токена во время инференса. Это оптимизирует вычислительную эффективность при сохранении большого количества параметров.
- Mixture of Agents (MoA): Работает на уровне модели или системы. Она включает в себя полностью раздельные AI агенты, часто построенные на различных базовых моделях, взаимодействующих в рамках конвейера. MoA больше похожа на ансамбль моделей, объединенный с интеллектуальным процессом проверки, как подробно описано в недавних исследованиях мультиагентных систем.
Link to this sectionРеальные приложения#
Архитектуры MoA превосходно работают в средах, требующих глубоких рассуждений, проверки фактов и синтеза разнообразных данных.
- Сложная разработка программного обеспечения: При разработке ПО система MoA может использовать Anthropic Claude для написания основного кода, OpenAI GPT-4o для генерации модульных тестов и локализованную модель для аудита безопасности. Финальный агент-агрегатор проверяет объединенный код, тестирует его и выдает уточненный скрипт без багов.
- Автоматизированная медицинская диагностика: В сфере ИИ в здравоохранении диагностический конвейер MoA может задействовать специализированных агентов для изучения истории болезни, анализа лабораторных результатов и обработки медицинских изображений. Агент-синтезатор объединяет эти данные, чтобы помочь врачам поставить комплексный диагноз, значительно снижая вероятность человеческой ошибки.
Link to this sectionИнтеграция зрения в рабочие процессы MoA#
Современные системы MoA становятся все более мультимодальными, что означает, что они опираются на модели компьютерного зрения (CV) для восприятия физического мира перед тем, как рассуждать о нем. Например, в ИИ в производстве визуальный агент может проверять трансляцию с живой камеры и отправлять свои фактические наблюдения агенту рассуждения.
Следующий пример на Python демонстрирует, как Ultralytics YOLO26 может выступать в роли «визуального агента» внутри конвейера MoA, извлекая контекстные данные для передачи последующим LLM. Ты можешь беспрепятственно управлять и донастраивать эти специализированные инструменты компьютерного зрения с помощью Ultralytics Platform.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")Соединяя разрыв между высокоэффективными моделями зрения, созданными на таких фреймворках, как PyTorch, и продвинутыми когнитивными движками, такими как Google Gemini, экосистемы MoA отражают человеческое сотрудничество. Они стремительно становятся основой конвейеров Agentic RAG, прокладывая путь к более надежным и устойчивым автономным системам.






