Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Комбинация действующих веществ (MoA)

Узнайте, как Mixture of Agents (MoA) использует несколько больших языковых моделей (LLM) для решения сложных задач. Узнайте, как интегрировать Ultralytics в качестве визуального агента в рабочие процессы MoA.

«Совокупность агентов» (MoA) — это передовая архитектура искусственного интеллекта, которая использует несколько крупных языковых моделей (LLM) или автономных агентов для совместного решения сложных задач. Вместо того чтобы полагаться на одну модель для генерации ответа, система MoA одновременно запрашивает несколько разных моделей. Эти исходные агенты генерируют независимые ответы, которые затем передаются агенту-агрегатору или агенту-синтезатору. Агрегатор оценивает, уточняет и объединяет различные точки зрения в единый высококачественный конечный результат. Такой совместный подход значительно повышает способности к рассуждению и снижает влияние индивидуальных предубеждений или слабых сторон отдельных моделей, что представляет собой значительный шаг вперед в области обработки естественного языка (NLP) и решения задач.

«Смесь агентов» против «Смесь экспертов»

Хотя эти термины звучат похоже, крайне важно отличать MoA от схожего понятия «совокупность экспертов» (MoE).

  • «Смесь экспертов» (Mixture of Experts, MoE): работает в рамках единой архитектуры нейронной сети. В ней используется механизм маршрутизации, позволяющий активировать только определенные специализированные подслои (эксперты) для каждого токена во время инференции. Это обеспечивает оптимизацию вычислительной эффективности при сохранении большого количества параметров.
  • «Смешанный подход» (MoA): действует на уровне модели или системы. Он предполагает взаимодействие полностью независимых ИИ-агентов— зачастую построенных на основе разных базовых моделей — в рамках конвейера. MoA функционирует скорее как ансамбль моделей в сочетании с интеллектуальным процессом проверки, как подробно описано в недавних исследованиях по многоагентным системам.

Применение в реальном мире

Архитектуры MoA демонстрируют высокую эффективность в условиях, требующих глубокого анализа, проверки фактов и синтеза разнообразных данных.

  • Комплексная разработка программного обеспечения: при разработке программного обеспечения система MoA может использовать Anthropic для написания основной логики, OpenAI GPT-4o для генерации модульных тестов и локализованную модель для аудита безопасности. В заключение агрегатор-агент проверяет объединенный код, тестирует его и выдает отлаженный, не содержащий ошибок скрипт.
  • Автоматизированная медицинская диагностика: В сфере применения искусственного интеллекта в здравоохранении диагностический конвейер может задействовать специализированные агенты для изучения истории болезни пациента, анализа результатов лабораторных исследований и обработки медицинских изображений. Агент-синтезатор объединяет эти данные, чтобы помочь врачам поставить всесторонний диагноз, что позволяет значительно снизить вероятность человеческой ошибки.

Интеграция систем технического зрения в рабочие процессы MoA

Современные системы MoA все чаще становятся мультимодальными, то есть используют модели компьютерного зрения (CV) для восприятия физического мира перед тем, как приступать к его анализу. Например, в сфере применения ИИ в производстве визуальный агент может анализировать изображение с камеры в режиме реального времени и передавать свои фактические наблюдения агенту, отвечающему за логический анализ.

В приведенном ниже Python показано, как Ultralytics может выступать в качестве «визуального агента» в конвейере MoA, извлекая контекстные данные для передачи в последующие модели большого языка (LLM). Разработчики могут легко управлять этими специализированными инструментами обработки изображений и настраивать их с помощью Ultralytics .

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

Устраняя разрыв между высокопроизводительными моделями машинного зрения, созданными с помощью таких фреймворков, как PyTorch , и передовыми когнитивными движками, такими как Google , экосистемы MoA отражают принципы человеческого сотрудничества. Они быстро становятся основой конвейеров Agentic RAG, прокладывая путь к созданию более надежных и устойчивых автономных систем.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения