Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Mélange d'agents (MoA)

Découvrez comment Mixture of Agents (MoA) exploite plusieurs modèles de langage de grande envergure (LLM) pour résoudre des tâches complexes. Apprenez à intégrer Ultralytics en tant qu'agent visuel dans les flux de travail MoA.

Un « Mixture of Agents » (MoA) est une architecture avancée d'intelligence artificielle qui exploite plusieurs grands modèles linguistiques (LLM) ou agents autonomes pour résoudre des tâches complexes de manière collaborative. Au lieu de s'appuyer sur un seul modèle pour générer une réponse, un système MoA interroge simultanément plusieurs modèles distincts. Ces agents initiaux produisent des réponses indépendantes, qui sont ensuite transmises à un agent agrégateur ou synthétiseur. L'agrégateur évalue, affine et combine ces diverses perspectives en un seul résultat final de haute qualité. Cette approche collaborative renforce considérablement les capacités de raisonnement et atténue les biais ou les faiblesses individuels des modèles autonomes, ce qui représente un bond en avant majeur dans le traitement du langage naturel (NLP) et la résolution de problèmes.

Mélange d'agents vs. Mélange d'experts

Même si ces termes semblent similaires, il est essentiel de distinguer le MoA du concept apparenté de « mélange d'experts » (MoE).

  • Mélange d'experts (MoE) : fonctionne au sein d'une seule architecture de réseau neuronal. Il utilise un mécanisme de routage pour n'activer que des sous-couches spécifiques et spécialisées (les « experts ») pour chaque token lors de l'inférence. Cela permet d'optimiser l'efficacité computationnelle tout en conservant un nombre élevé de paramètres.
  • Mélange d'agents (MoA) : fonctionne au niveau du modèle ou du système. Il s'agit d'agents d'IAtotalement indépendants — souvent basés sur des modèles de base différents — qui interagissent au sein d'un pipeline. Le MoA s'apparente davantage à un ensemble de modèles associé à un processus de révision intelligent, comme le montrent les récentes recherches sur les systèmes multi-agents.

Applications concrètes

Les architectures MoA excellent dans les environnements qui exigent un raisonnement approfondi, la vérification des faits et la synthèse de données variées.

  • Ingénierie logicielle complexe : dans le domaine du développement logiciel, un système MoA peut utiliser Anthropic pour écrire la logique centrale, OpenAI GPT-4o pour générer des tests unitaires, et un modèle localisé pour l'audit de sécurité. Un agent agrégateur final examine le code combiné, le teste et produit un script optimisé et exempt de bogues .
  • Diagnostics médicaux automatisés : dans le domaine de l'IA appliquée à la santé, un pipeline de mécanismes d'action diagnostiques peut déployer des agents spécialisés chargés d'examiner les antécédents médicaux des patients, d'analyser les résultats de laboratoire et de traiter les images médicales. L' agent synthétiseur rassemble ces informations pour aider les médecins à établir un diagnostic complet, ce qui réduit considérablement le risque d'erreur humaine.

Intégration de la vision dans les flux de travail MoA

Les systèmes MoA modernes sont de plus en plus multimodaux, ce qui signifie qu'ils s'appuient sur des modèles de vision par ordinateur (CV) pour percevoir le monde physique avant d'effectuer des raisonnements à son sujet. Par exemple, dans le domaine de l'IA appliquée à la fabrication, un agent visuel peut inspecter le flux vidéo en direct d'une caméra et transmettre ses observations factuelles à un agent de raisonnement.

Python suivant montre comment Ultralytics peut servir d'« agent visuel » au sein d'un pipeline MoA, en extrayant des données contextuelles destinées à alimenter les modèles de langage de grande échelle (LLM) en aval. Les développeurs peuvent facilement gérer et affiner ces outils de vision spécialisés à l'aide de la Ultralytics .

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

En comblant le fossé entre les modèles de vision très performants développés à l'aide de frameworks tels que PyTorch et des moteurs cognitifs avancés tels que Google , les écosystèmes MoA reproduisent la collaboration humaine. Ils sont en train de devenir rapidement la colonne vertébrale des pipelines RAG agentiques, ouvrant la voie à des systèmes autonomes plus robustes et plus fiables.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique