Mixture of Agents (MoA)
Entdecke, wie Mixture of Agents (MoA) mehrere LLMs nutzt, um komplexe Aufgaben zu lösen. Lerne, Ultralytics YOLO26 als visuellen Agenten in MoA-Workflows zu integrieren.
Eine Mixture of Agents (MoA) ist eine fortschrittliche Architektur der künstlichen Intelligenz, die mehrere Large Language Models (LLMs) oder autonome Agenten nutzt, um komplexe Aufgaben gemeinschaftlich zu lösen. Anstatt sich auf ein einzelnes Modell zu verlassen, um eine Antwort zu generieren, fragt ein MoA-System mehrere verschiedene Modelle gleichzeitig ab. Diese ersten Agenten erstellen unabhängige Antworten, die dann an einen Aggregator- oder Synthesizer-Agenten weitergeleitet werden. Der Aggregator bewertet, verfeinert und kombiniert die unterschiedlichen Perspektiven zu einem einzigen, qualitativ hochwertigen Endergebnis. Dieser kollaborative Ansatz verbessert die Schlussfolgerungsfähigkeiten erheblich und mindert die individuellen Verzerrungen oder Schwächen einzelner Modelle, was einen großen Fortschritt in der Natural Language Processing (NLP) und Problemlösung darstellt.
Link to this sectionMixture of Agents vs. Mixture of Experts#
Obwohl sie ähnlich klingen, ist es entscheidend, MoA von dem verwandten Konzept der Mixture of Experts (MoE) zu unterscheiden.
- Mixture of Experts (MoE): Arbeitet innerhalb einer einzelnen Neural Network Architecture. Es verwendet einen Routing-Mechanismus, um während der Inferenz nur bestimmte, spezialisierte Sub-Layer (Experten) für jeden Token zu aktivieren. Dies optimiert die Recheneffizienz bei gleichzeitiger Beibehaltung einer hohen Parameteranzahl.
- Mixture of Agents (MoA): Arbeitet auf Modell- oder Systemebene. Es umfasst völlig separate AI Agents – oft auf verschiedenen Basismodellen aufgebaut –, die in einer Pipeline interagieren. MoA fungiert eher wie ein Model Ensemble, kombiniert mit einem intelligenten Überprüfungsprozess, wie in aktueller Multi-Agent System Research beschrieben.
Link to this sectionPraxisanwendungen#
MoA-Architekturen zeichnen sich in Umgebungen aus, die tiefgreifendes Schlussfolgern, Faktenprüfung und die Synthese vielfältiger Daten erfordern.
- Komplexe Softwareentwicklung: In der Softwareentwicklung könnte ein MoA-System Anthropic Claude für das Schreiben der Kernlogik, OpenAI GPT-4o für die Generierung von Unit-Tests und ein lokalisiertes Modell für Sicherheitsaudits verwenden. Ein abschließender Aggregator-Agent überprüft den kombinierten Code, testet ihn und gibt ein verfeinertes, fehlerfreies Skript aus.
- Automatisierte medizinische Diagnostik: Bei AI in Healthcare kann eine diagnostische MoA-Pipeline spezialisierte Agenten einsetzen, um die Patientengeschichte zu überprüfen, Laborergebnisse zu analysieren und medizinische Bildgebung zu verarbeiten. Der Synthesizer-Agent aggregiert diese Ergebnisse, um Ärzte bei der Erstellung einer umfassenden Diagnose zu unterstützen, was die Wahrscheinlichkeit menschlicher Fehler drastisch reduziert.
Link to this sectionIntegration von Vision in MoA-Workflows#
Moderne MoA-Systeme sind zunehmend multimodal, was bedeutet, dass sie sich auf Computer Vision (CV)-Modelle verlassen, um die physische Welt wahrzunehmen, bevor sie darüber schlussfolgern. Zum Beispiel kann in der AI in Manufacturing ein visueller Agent einen Live-Kamera-Feed inspizieren und seine faktischen Beobachtungen an einen schlussfolgernden Agenten senden.
Das folgende Python-Beispiel zeigt, wie Ultralytics YOLO26 als "visueller Agent" innerhalb einer MoA-Pipeline fungieren kann, wobei kontextbezogene Daten extrahiert werden, um sie an nachgelagerte LLMs weiterzuleiten. Entwickler können diese spezialisierten Vision-Tools nahtlos über die Ultralytics Platform verwalten und feinabstimmen.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")Durch die Überbrückung der Lücke zwischen hochleistungsfähigen Vision-Modellen, die mit Frameworks wie PyTorch erstellt wurden, und fortschrittlichen kognitiven Engines wie Google Gemini, spiegeln MoA-Ökosysteme die menschliche Zusammenarbeit wider. Sie entwickeln sich rasant zum Rückgrat von Agentic RAG-Pipelines und ebnen den Weg für robustere und zuverlässigere autonome Systeme.






