Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Wirkstoffkombination (MoA)

Erfahren Sie, wie „Mixture of Agents“ (MoA) mehrere große Sprachmodelle nutzt, um komplexe Aufgaben zu lösen. Lernen Sie, wie Sie Ultralytics als visuellen Agenten in MoA-Workflows integrieren.

Ein „Mixture of Agents“ (MoA) ist eine fortschrittliche Architektur der künstlichen Intelligenz, die mehrere große Sprachmodelle (LLMs) oder autonome Agenten nutzt, um komplexe Aufgaben gemeinsam zu lösen. Anstatt sich bei der Generierung einer Antwort auf ein einziges Modell zu verlassen, fragt ein MoA-System gleichzeitig mehrere unterschiedliche Modelle ab. Diese ursprünglichen Agenten liefern unabhängige Antworten, die anschließend an einen Aggregator- oder Synthesizer-Agenten weitergeleitet werden. Der Aggregator bewertet, verfeinert und kombiniert die unterschiedlichen Perspektiven zu einem einzigen, qualitativ hochwertigen Endergebnis. Dieser kollaborative Ansatz steigert die Schlussfolgerungsfähigkeiten erheblich und mindert die individuellen Verzerrungen oder Schwächen einzelner Modelle, was einen großen Fortschritt in der natürlichen Sprachverarbeitung (NLP) und der Problemlösung darstellt.

Mischung aus Agenten vs. Mischung aus Experten

Auch wenn sich die Begriffe ähnlich anhören, ist es entscheidend, MoA vom verwandten Konzept der Mixture of Experts (MoE) zu unterscheiden.

  • Mixture of Experts (MoE): Funktioniert innerhalb einer einzigen neuronalen Netzwerkarchitektur. Es nutzt einen Routing-Mechanismus, um bei der Inferenz für jedes Token nur bestimmte, spezialisierte Unterschichten (Experten) zu aktivieren. Dies optimiert die Recheneffizienz bei gleichzeitig hoher Parameteranzahl.
  • Agentenmix (MoA): Wirkt auf Modell- oder Systemebene. Dabei interagieren völlig voneinander unabhängige KI-Agenten– die häufig auf unterschiedlichen Basis- Modellen aufbauen – in einer Pipeline. MoA funktioniert eher wie ein Modellensemble in Verbindung mit einem intelligenten Überprüfungs- Prozess, wie dies in der aktuellen Forschung zu Multi-Agenten-Systemen beschrieben wird.

Anwendungsfälle in der Praxis

MoA-Architekturen eignen sich besonders für Umgebungen, in denen tiefgreifende Schlussfolgerungen, Faktenprüfung und die Synthese vielfältiger Daten erforderlich sind.

  • Komplexe Softwareentwicklung: In der Softwareentwicklung könnte ein MoA-System Anthropic zum Schreiben der Kernlogik, OpenAI GPT-4o zur Erstellung von Unit-Tests und ein lokalisiertes Modell für die Sicherheitsprüfung nutzen. Ein abschließender Aggregator-Agent überprüft den zusammengeführten Code, testet ihn und gibt ein optimiertes, fehlerfreies Skript aus.
  • Automatisierte medizinische Diagnostik: Im Bereich der KI im Gesundheitswesen kann eine diagnostische MoA-Pipeline spezialisierte Agenten einsetzen, um die Krankengeschichte zu überprüfen, Laborergebnisse zu analysieren und medizinische Bilddaten zu verarbeiten. Der Synthesizer-Agent fasst diese Befunde zusammen, um Ärzte bei der Erstellung einer umfassenden Diagnose zu unterstützen, wodurch das Risiko menschlicher Fehler drastisch verringert wird.

Integration von Bildverarbeitung in MoA-Workflows

Moderne MoA-Systeme sind zunehmend multimodal, das heißt, sie stützen sich auf Computer-Vision-Modelle (CV), um die physische Welt wahrzunehmen, bevor sie Schlussfolgerungen darüber ziehen. In der KI in der Fertigung kann beispielsweise ein visueller Agent ein Live-Kamerabild auswerten und seine Beobachtungen an einen Schlussfolgerungsagenten weiterleiten.

Das folgende Python veranschaulicht, wie Ultralytics als „visueller Agent“ innerhalb einer MoA-Pipeline fungieren kann, indem es Kontextdaten extrahiert, die an nachgelagerte LLMs weitergeleitet werden. Entwickler können diese spezialisierten Bildverarbeitungswerkzeuge mithilfe der Ultralytics nahtlos verwalten und feinabstimmen.

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

Indem die Lücke zwischen leistungsstarken Bildverarbeitungsmodellen, die mit Frameworks wie PyTorch und fortschrittlichen kognitiven Engines wie Google , spiegeln MoA-Ökosysteme die menschliche Zusammenarbeit wider. Sie entwickeln sich rasch zum Rückgrat agentischer RAG-Pipelines und ebnen den Weg für robustere und zuverlässigere autonome Systeme.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens