Узнайте, как Mixture of Agents (MoA) использует несколько больших языковых моделей (LLM) для решения сложных задач. Узнайте, как интегрировать Ultralytics в качестве визуального агента в рабочие процессы MoA.
«Совокупность агентов» (MoA) — это передовая архитектура искусственного интеллекта, которая использует несколько крупных языковых моделей (LLM) или автономных агентов для совместного решения сложных задач. Вместо того чтобы полагаться на одну модель для генерации ответа, система MoA одновременно запрашивает несколько разных моделей. Эти исходные агенты генерируют независимые ответы, которые затем передаются агенту-агрегатору или агенту-синтезатору. Агрегатор оценивает, уточняет и объединяет различные точки зрения в единый высококачественный конечный результат. Такой совместный подход значительно повышает способности к рассуждению и снижает влияние индивидуальных предубеждений или слабых сторон отдельных моделей, что представляет собой значительный шаг вперед в области обработки естественного языка (NLP) и решения задач.
Хотя эти термины звучат похоже, крайне важно отличать MoA от схожего понятия «совокупность экспертов» (MoE).
Архитектуры MoA демонстрируют высокую эффективность в условиях, требующих глубокого анализа, проверки фактов и синтеза разнообразных данных.
Современные системы MoA все чаще становятся мультимодальными, то есть используют модели компьютерного зрения (CV) для восприятия физического мира перед тем, как приступать к его анализу. Например, в сфере применения ИИ в производстве визуальный агент может анализировать изображение с камеры в режиме реального времени и передавать свои фактические наблюдения агенту, отвечающему за логический анализ.
В приведенном ниже Python показано, как Ultralytics может выступать в качестве «визуального агента» в конвейере MoA, извлекая контекстные данные для передачи в последующие модели большого языка (LLM). Разработчики могут легко управлять этими специализированными инструментами обработки изображений и настраивать их с помощью Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Устраняя разрыв между высокопроизводительными моделями машинного зрения, созданными с помощью таких фреймворков, как PyTorch , и передовыми когнитивными движками, такими как Google , экосистемы MoA отражают принципы человеческого сотрудничества. Они быстро становятся основой конвейеров Agentic RAG, прокладывая путь к созданию более надежных и устойчивых автономных систем.
Начните свой путь в будущее машинного обучения