Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Multi-Modal Learning

Erkunde multimodales Lernen in der KI. Erfahre, wie es Text, Vision und Audio für robuste Modelle wie Ultralytics YOLO26 und YOLO-World integriert. Entdecke heute mehr!

Multi-modales Lernen ist ein anspruchsvoller Ansatz in der künstlichen Intelligenz (KI), bei dem Algorithmen darauf trainiert werden, Informationen aus mehreren unterschiedlichen Datentypen oder „Modalitäten“ zu verarbeiten, zu verstehen und miteinander in Beziehung zu setzen. Im Gegensatz zu herkömmlichen Systemen, die auf einen einzigen Eingabetyp spezialisiert sind – wie Text für Übersetzungen oder Pixel für die Bilderkennung –, ahmt multi-modales Lernen die menschliche Kognition nach, indem es verschiedene sensorische Eingaben wie visuelle Daten, gesprochene Audiodaten, textuelle Beschreibungen und Sensormesswerte integriert. Dieser ganzheitliche Ansatz ermöglicht es Machine-Learning-Modellen (ML), ein tieferes, kontextbezogenes Verständnis der Welt zu entwickeln, was zu robusteren und vielseitigeren Vorhersagen führt.

Link to this sectionWie multi-modales Lernen funktioniert#

Die zentrale Herausforderung beim multi-modalen Lernen besteht darin, unterschiedliche Datentypen in einen gemeinsamen mathematischen Raum zu übersetzen, in dem sie verglichen und kombiniert werden können. Dieser Prozess umfasst im Allgemeinen drei Hauptphasen: Enkodierung, Ausrichtung und Fusion.

  1. Merkmalsextraktion: Spezialisierte neuronale Netze verarbeiten jede Modalität unabhängig. Zum Beispiel können konvolutionale neuronale Netze (CNNs) oder Vision Transformer (ViTs) Merkmale aus Bildern extrahieren, während rekurrente neuronale Netze (RNNs) oder Transformer Text verarbeiten.

  2. Einbettungsausrichtung: Das Modell lernt, diese vielfältigen Merkmale in gemeinsame hochdimensionale Vektoren abzubilden. In diesem gemeinsamen Raum werden der Vektor für das Wort „Katze“ und der Vektor für das Bild einer Katze einander angenähert. Techniken wie das kontrastive Lernen, das durch Arbeiten wie OpenAIs CLIP populär wurde, sind hierbei unerlässlich.

  3. Datenfusion: Schließlich werden die Informationen zusammengeführt, um eine Aufgabe auszuführen. Die Fusion kann früh (Kombination von Rohdaten), spät (Kombination der endgültigen Vorhersagen) oder über hybride Zwischenmethoden erfolgen, wobei der Aufmerksamkeitsmechanismus genutzt wird, um die Wichtigkeit jeder Modalität dynamisch zu gewichten.

Link to this sectionPraxisanwendungen#

Multi-modales Lernen ist der Motor hinter vielen der heute beeindruckendsten KI-Durchbrüche und schlägt die Brücke zwischen verschiedenen Datensilos, um komplexe Probleme zu lösen.

  • Visual Question Answering (VQA): Bei dieser Anwendung muss ein System ein Bild analysieren und eine Frage in natürlicher Sprache dazu beantworten, wie zum Beispiel: „Welche Farbe hat die Ampel?“. Dies erfordert, dass das Modell die Semantik des Textes versteht und die entsprechenden visuellen Elemente mithilfe von Computer Vision räumlich lokalisieren kann.
  • Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich stark auf Sensorfusion und kombinieren Daten aus LiDAR-Punktwolken, Kameravideo-Feeds und Radar, um sicher zu navigieren. Dieser multi-modale Input stellt sicher, dass, falls ein Sensor ausfällt (z. B. eine durch Blendung geblendete Kamera), andere die Verkehrssicherheit aufrechterhalten können.
  • Gesundheitsdiagnostik: KI im Gesundheitswesen nutzt multi-modales Lernen durch die Analyse von medizinischer Bildverarbeitung (wie MRT oder Röntgenaufnahmen) neben unstrukturierten schriftlichen Patientengeschichten und genetischen Daten. Diese umfassende Sicht unterstützt Ärzte bei genaueren Diagnosen – ein Thema, das häufig in Nature Digital Medicine-Fachzeitschriften diskutiert wird.
  • Generative KI: Tools, die Bilder aus Text-Prompts erstellen, wie etwa Stable Diffusion, verlassen sich vollständig auf die Fähigkeit des Modells, die Beziehung zwischen sprachlichen Beschreibungen und visuellen Texturen zu verstehen.

Link to this sectionMulti-modale Objekterkennung mit Ultralytics#

Während sich Standard-Objekterkenner auf vordefinierte Klassen stützen, ermöglichen multi-modale Ansätze wie YOLO-World es Benutzern, Objekte mithilfe von Open-Vocabulary-Text-Prompts zu erkennen. Dies zeigt die Leistungsfähigkeit der Verknüpfung von textuellen Konzepten mit visuellen Merkmalen innerhalb des Ultralytics-Ökosystems.

Der folgende Python-Code-Schnipsel zeigt, wie ein vortrainiertes YOLO-World-Modell verwendet wird, um Objekte basierend auf benutzerdefinierten Texteingaben zu erkennen.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionUnterscheidung der wichtigsten Begriffe#

Um sich in der modernen KI-Landschaft zurechtzufinden, ist es hilfreich, „multi-modales Lernen“ von verwandten Konzepten zu unterscheiden:

  • Multi-Modales Modell: „Multi-modales Lernen“ bezieht sich auf die Methodik und das Studiengebiet. Ein „multi-modales Modell“ (wie GPT-4 oder Googles Gemini) ist das spezifische Artefakt oder Softwareprodukt, das aus diesem Trainingsprozess resultiert.
  • Unimodale KI: Traditionelle Computer Vision ist im Allgemeinen unimodal und konzentriert sich ausschließlich auf visuelle Daten. Während ein Modell wie Ultralytics YOLO26 ein hochmodernes CV-Tool zur Objekterkennung ist, arbeitet es normalerweise nur mit visuellen Eingaben, sofern es nicht Teil einer größeren multi-modalen Pipeline ist.
  • Große Sprachmodelle (LLMs): Herkömmliche LLMs sind unimodal und werden nur mit Text trainiert. Die Branche verlagert sich jedoch in Richtung „Large Multimodal Models“ (LMMs), die nativ Bilder und Text verarbeiten können – ein Trend, der durch Frameworks wie PyTorch und TensorFlow unterstützt wird.

Link to this sectionAusblick auf die Zukunft#

Die Entwicklung des multi-modalen Lernens deutet auf Systeme hin, die Eigenschaften der künstlichen allgemeinen Intelligenz (AGI) besitzen. Durch die erfolgreiche Verankerung von Sprache in der visuellen und physischen Realität bewegen sich diese Modelle über statistische Korrelationen hinaus hin zu echtem Schlussfolgern. Die Forschung von Institutionen wie dem MIT CSAIL und dem Stanford Center for Research on Foundation Models verschiebt weiterhin die Grenzen dessen, wie Maschinen komplexe, multi-sensorische Umgebungen wahrnehmen und mit ihnen interagieren.

Bei Ultralytics integrieren wir diese Fortschritte in unsere Ultralytics Platform, die es Benutzern ermöglicht, Daten zu verwalten, Modelle zu trainieren und Lösungen bereitzustellen, die das gesamte Spektrum der verfügbaren Modalitäten nutzen – von der Geschwindigkeit von YOLO26 bis hin zur Vielseitigkeit der Open-Vocabulary-Erkennung.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens