Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Multi-Modal Model

Erkunde, wie multimodale Modelle Text, Bilder und Audio integrieren. Erfahre mehr über Architekturen wie Ultralytics YOLO26 und stelle Vision-KI auf der Ultralytics Platform bereit.

Ein multi-modales Modell ist ein fortschrittlicher Typ eines künstliche Intelligenz (KI) Systems, das in der Lage ist, Informationen aus mehreren verschiedenen Datentypen oder "Modalitäten" gleichzeitig zu verarbeiten, zu interpretieren und zu integrieren. Während sich herkömmliche unimodale Systeme auf einen einzelnen Bereich spezialisieren – wie Natural Language Processing (NLP) für Text oder Computer Vision (CV) für Bilder – zielen multi-modale Modelle darauf ab, die menschliche Wahrnehmung nachzuahmen, indem sie visuelle, auditive und linguistische Signale zusammenführen. Diese Konvergenz ermöglicht es dem Modell, ein umfassendes Verständnis der Welt zu entwickeln, wodurch es komplexe Zusammenhänge zwischen einer visuellen Szene und einer gesprochenen Beschreibung herstellen kann. Diese Fähigkeiten gelten als grundlegende Schritte zur Erreichung der künstlichen allgemeinen Intelligenz (AGI).

Link to this sectionKernmechanismen und Architektur#

Die Wirksamkeit eines multi-modalen Modells beruht auf seiner Fähigkeit, verschiedene Datentypen in einen gemeinsamen semantischen Raum abzubilden. Dieser Prozess beginnt normalerweise mit der Erstellung von Embeddings, bei denen es sich um numerische Repräsentationen handelt, die die wesentliche Bedeutung der Eingabedaten erfassen. Durch das Training auf riesigen Datensätzen von gepaarten Beispielen, wie z. B. Videos mit Untertiteln, lernt das Modell, die Vektorrepräsentation eines "Katzen"-Bildes mit dem Text-Embedding für das Wort "Katze" abzugleichen.

Mehrere wichtige architektonische Konzepte machen diese Integration möglich:

  • Transformer-Architektur: Viele multi-modale Systeme nutzen Transformer, die Aufmerksamkeitsmechanismen verwenden, um die Wichtigkeit verschiedener Eingabeteile dynamisch zu gewichten. Dies ermöglicht es einem Modell, sich auf spezifische Bildbereiche zu konzentrieren, die relevanten Wörtern in einem Text-Prompt entsprechen – ein Konzept, das im wegweisenden Forschungspapier "Attention Is All You Need" detailliert beschrieben wird.
  • Datenfusion: Dies bezieht sich auf die Strategie, Informationen aus verschiedenen Quellen zu kombinieren. Sensorfusion kann früh durch das Zusammenführen von Rohdaten oder spät durch das Kombinieren der Entscheidungen separater Teilmodelle erfolgen. Moderne Frameworks wie PyTorch bieten die Flexibilität, die für den Aufbau dieser komplexen Pipelines erforderlich ist.
  • Kontrastives Lernen: Techniken, die von Modellen wie OpenAIs CLIP verwendet werden, trainieren das System darauf, den Abstand zwischen passenden Text-Bild-Paaren im Vektorraum zu minimieren und gleichzeitig den Abstand zwischen nicht übereinstimmenden Paaren zu maximieren.

Link to this sectionPraxisanwendungen#

Multi-modale Modelle haben Fähigkeiten freigeschaltet, die für Single-Modality-Systeme bisher unmöglich zu erreichen waren.

  • Visual Question Answering (VQA): Diese Systeme ermöglichen es Benutzern, Fragen in natürlicher Sprache zu einem Bild zu stellen. Ein sehbehinderter Benutzer könnte zum Beispiel ein Foto einer Speisekammer hochladen und fragen: "Gibt es eine Dose Suppe im obersten Regal?" Das Modell verwendet Objekterkennung, um Objekte zu identifizieren, und NLP, um die Anfrage zu verstehen und eine hilfreiche Antwort zu liefern.
  • Autonome Fahrzeuge: Selbstfahrende Autos fungieren als multi-modale Echtzeit-Agenten. Sie kombinieren visuelle Feeds von Kameras, Tiefeninformationen von LiDAR und Geschwindigkeitsdaten von Radar. Diese Redundanz stellt sicher, dass, falls ein Sensor durch Wetterbedingungen beeinträchtigt wird, andere die Verkehrssicherheit aufrechterhalten können.
  • Open-Vocabulary-Erkennung: Modelle wie Ultralytics YOLO-World ermöglichen es Benutzern, Objekte mithilfe beliebiger Text-Prompts anstatt einer festen Liste von Klassen zu erkennen. Dies überbrückt die Lücke zwischen sprachlichen Befehlen und visueller Erkennung.

Link to this sectionBeispiel: Open-Vocabulary-Erkennung#

Das folgende Beispiel demonstriert, wie du die ultralytics Bibliothek verwendest, um eine Open-Vocabulary-Erkennung durchzuführen, bei der das Modell Text-Prompts interpretiert, um Objekte in einem Bild zu identifizieren:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionAbgrenzung zu verwandten Begriffen#

Es ist hilfreich, "Multi-Modales Modell" von verwandten Konzepten im KI-Glossar zu unterscheiden:

  • Multi-Modales Lernen: Dies bezieht sich auf den Prozess und die Machine Learning (ML) Techniken, die verwendet werden, um diese Systeme zu trainieren. Das multi-modale Modell ist das resultierende Artefakt oder Softwareprodukt dieses Lernprozesses.
  • Large Language Models (LLMs): Herkömmliche LLMs verarbeiten nur Text. Während sich viele zu Vision-Language Models (VLMs) weiterentwickeln, ist ein Standard-LLM unimodal.
  • Foundation Models: Dies ist eine breitere Kategorie, die groß angelegte Modelle beschreibt, die für viele nachgelagerte Aufgaben anpassbar sind. Während ein multi-modales Modell oft ein Foundation Model ist, behandeln nicht alle Foundation Models mehrere Modalitäten.

Link to this sectionDie Zukunft der multi-modalen KI#

Das Feld schreitet schnell in Richtung von Systemen voran, die kontinuierliche Ströme von Audio, Video und Text in Echtzeit verarbeiten können. Forschung von Organisationen wie Google DeepMind verschiebt weiterhin die Grenzen der maschinellen Wahrnehmung. Bei Ultralytics unterstützen wir dieses Ökosystem mit leistungsstarken Vision-Backbones wie YOLO26. Das 2026 veröffentlichte YOLO26 bietet überragende Geschwindigkeit und Genauigkeit für Aufgaben wie Instanzsegmentierung und dient als effiziente visuelle Komponente in größeren multi-modalen Pipelines. Entwickler können die Daten, das Training und die Bereitstellung dieser komplexen Workflows mithilfe der einheitlichen Ultralytics Platform verwalten.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens