Découvrez comment Mixture of Agents (MoA) exploite plusieurs modèles de langage de grande envergure (LLM) pour résoudre des tâches complexes. Apprenez à intégrer Ultralytics en tant qu'agent visuel dans les flux de travail MoA.
Un « Mixture of Agents » (MoA) est une architecture avancée d'intelligence artificielle qui exploite plusieurs grands modèles linguistiques (LLM) ou agents autonomes pour résoudre des tâches complexes de manière collaborative. Au lieu de s'appuyer sur un seul modèle pour générer une réponse, un système MoA interroge simultanément plusieurs modèles distincts. Ces agents initiaux produisent des réponses indépendantes, qui sont ensuite transmises à un agent agrégateur ou synthétiseur. L'agrégateur évalue, affine et combine ces diverses perspectives en un seul résultat final de haute qualité. Cette approche collaborative renforce considérablement les capacités de raisonnement et atténue les biais ou les faiblesses individuels des modèles autonomes, ce qui représente un bond en avant majeur dans le traitement du langage naturel (NLP) et la résolution de problèmes.
Même si ces termes semblent similaires, il est essentiel de distinguer le MoA du concept apparenté de « mélange d'experts » (MoE).
Les architectures MoA excellent dans les environnements qui exigent un raisonnement approfondi, la vérification des faits et la synthèse de données variées.
Les systèmes MoA modernes sont de plus en plus multimodaux, ce qui signifie qu'ils s'appuient sur des modèles de vision par ordinateur (CV) pour percevoir le monde physique avant d'effectuer des raisonnements à son sujet. Par exemple, dans le domaine de l'IA appliquée à la fabrication, un agent visuel peut inspecter le flux vidéo en direct d'une caméra et transmettre ses observations factuelles à un agent de raisonnement.
Python suivant montre comment Ultralytics peut servir d'« agent visuel » au sein d'un pipeline MoA, en extrayant des données contextuelles destinées à alimenter les modèles de langage de grande échelle (LLM) en aval. Les développeurs peuvent facilement gérer et affiner ces outils de vision spécialisés à l'aide de la Ultralytics .
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
En comblant le fossé entre les modèles de vision très performants développés à l'aide de frameworks tels que PyTorch et des moteurs cognitifs avancés tels que Google , les écosystèmes MoA reproduisent la collaboration humaine. Ils sont en train de devenir rapidement la colonne vertébrale des pipelines RAG agentiques, ouvrant la voie à des systèmes autonomes plus robustes et plus fiables.


Commencez votre parcours avec l'avenir de l'apprentissage automatique