Erfahren Sie, wie „Mixture of Agents“ (MoA) mehrere große Sprachmodelle nutzt, um komplexe Aufgaben zu lösen. Lernen Sie, wie Sie Ultralytics als visuellen Agenten in MoA-Workflows integrieren.
Ein „Mixture of Agents“ (MoA) ist eine fortschrittliche Architektur der künstlichen Intelligenz, die mehrere große Sprachmodelle (LLMs) oder autonome Agenten nutzt, um komplexe Aufgaben gemeinsam zu lösen. Anstatt sich bei der Generierung einer Antwort auf ein einziges Modell zu verlassen, fragt ein MoA-System gleichzeitig mehrere unterschiedliche Modelle ab. Diese ursprünglichen Agenten liefern unabhängige Antworten, die anschließend an einen Aggregator- oder Synthesizer-Agenten weitergeleitet werden. Der Aggregator bewertet, verfeinert und kombiniert die unterschiedlichen Perspektiven zu einem einzigen, qualitativ hochwertigen Endergebnis. Dieser kollaborative Ansatz steigert die Schlussfolgerungsfähigkeiten erheblich und mindert die individuellen Verzerrungen oder Schwächen einzelner Modelle, was einen großen Fortschritt in der natürlichen Sprachverarbeitung (NLP) und der Problemlösung darstellt.
Auch wenn sich die Begriffe ähnlich anhören, ist es entscheidend, MoA vom verwandten Konzept der Mixture of Experts (MoE) zu unterscheiden.
MoA-Architekturen eignen sich besonders für Umgebungen, in denen tiefgreifende Schlussfolgerungen, Faktenprüfung und die Synthese vielfältiger Daten erforderlich sind.
Moderne MoA-Systeme sind zunehmend multimodal, das heißt, sie stützen sich auf Computer-Vision-Modelle (CV), um die physische Welt wahrzunehmen, bevor sie Schlussfolgerungen darüber ziehen. In der KI in der Fertigung kann beispielsweise ein visueller Agent ein Live-Kamerabild auswerten und seine Beobachtungen an einen Schlussfolgerungsagenten weiterleiten.
Das folgende Python veranschaulicht, wie Ultralytics als „visueller Agent“ innerhalb einer MoA-Pipeline fungieren kann, indem es Kontextdaten extrahiert, die an nachgelagerte LLMs weitergeleitet werden. Entwickler können diese spezialisierten Bildverarbeitungswerkzeuge mithilfe der Ultralytics nahtlos verwalten und feinabstimmen.
from ultralytics import YOLO
# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")
# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")
# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)
# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")
Indem die Lücke zwischen leistungsstarken Bildverarbeitungsmodellen, die mit Frameworks wie PyTorch und fortschrittlichen kognitiven Engines wie Google , spiegeln MoA-Ökosysteme die menschliche Zusammenarbeit wider. Sie entwickeln sich rasch zum Rückgrat agentischer RAG-Pipelines und ebnen den Weg für robustere und zuverlässigere autonome Systeme.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens