Mixture of Agents (MoA)
Découvre comment le mélange d'agents (MoA) exploite plusieurs LLM pour résoudre des tâches complexes. Apprends à intégrer Ultralytics YOLO26 comme agent visuel dans les flux de travail MoA.
Un Mélange d'agents (MoA) est une architecture d'intelligence artificielle avancée qui exploite plusieurs grands modèles de langage (LLM) ou agents autonomes pour résoudre de manière collaborative des tâches complexes. Au lieu de s'appuyer sur un seul modèle pour générer une réponse, un système MoA interroge plusieurs modèles distincts simultanément. Ces agents initiaux produisent des réponses indépendantes, qui sont ensuite transmises à un agent agrégateur ou synthétiseur. L'agrégateur évalue, affine et combine ces diverses perspectives en un seul résultat final de haute qualité. Cette approche collaborative renforce considérablement les capacités de raisonnement et atténue les biais ou faiblesses individuels des modèles isolés, représentant un bond en avant majeur dans le traitement automatique du langage naturel (NLP) et la résolution de problèmes.
Link to this sectionMélange d'agents vs Mélange d'experts#
Bien qu'ils se ressemblent, il est crucial de différencier le MoA du concept apparenté de Mélange d'experts (MoE).
- Mélange d'experts (MoE) : Fonctionne au sein d'une unique architecture de réseau neuronal. Il utilise un mécanisme de routage pour n'activer que des sous-couches spécialisées (experts) spécifiques pour chaque jeton lors de l'inférence. Cela optimise l'efficacité computationnelle tout en maintenant un nombre élevé de paramètres.
- Mélange d'agents (MoA) : Fonctionne au niveau du modèle ou du système. Il implique des agents IA entièrement distincts — souvent basés sur différents modèles fondateurs — interagissant dans un pipeline. Le MoA agit davantage comme un ensemble de modèles combiné à un processus de révision intelligent, comme détaillé dans des recherches récentes sur les systèmes multi-agents.
Link to this sectionApplications concrètes#
Les architectures MoA excellent dans les environnements nécessitant un raisonnement approfondi, une vérification des faits et une synthèse de données diverses.
- Ingénierie logicielle complexe : Dans le développement logiciel, un système MoA pourrait utiliser Anthropic Claude pour écrire la logique principale, OpenAI GPT-4o pour générer des tests unitaires, et un modèle localisé pour l'audit de sécurité. Un agent agrégateur final examine le code combiné, le teste et génère un script affiné et sans bug.
- Diagnostic médical automatisé : Dans l'IA dans la santé, un pipeline de diagnostic MoA peut déployer des agents spécialisés pour examiner l'historique des patients, analyser les résultats de laboratoire et traiter l'imagerie médicale. L'agent synthétiseur agrège ces résultats pour aider les médecins à établir un diagnostic complet, réduisant considérablement le risque d'erreur humaine.
Link to this sectionIntégration de la vision dans les flux de travail MoA#
Les systèmes MoA modernes sont de plus en plus multimodaux, ce qui signifie qu'ils s'appuient sur des modèles de vision par ordinateur (CV) pour percevoir le monde physique avant de raisonner dessus. Par exemple, dans l'IA dans la fabrication, un agent visuel peut inspecter un flux de caméra en direct et envoyer ses observations factuelles à un agent de raisonnement.
L'exemple Python suivant démontre comment Ultralytics YOLO26 peut fonctionner comme un « agent visuel » au sein d'un pipeline MoA, extrayant des données contextuelles à transmettre aux LLM en aval. Les développeurs peuvent gérer et affiner ces outils de vision spécialisés de manière transparente en utilisant la Plateforme Ultralytics.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")En comblant le fossé entre des modèles de vision très performants construits avec des frameworks comme PyTorch et des moteurs cognitifs avancés comme Google Gemini, les écosystèmes MoA reflètent la collaboration humaine. Ils deviennent rapidement l'épine dorsale des pipelines RAG agentique, ouvrant la voie à des systèmes autonomes plus robustes et fiables.






