Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Multimodale KI

Entdecken Sie multimodale KI und wie sie Text und Bild für ein kontextbezogenes Verständnis integriert. Lernen Sie noch heute den Umgang mit Ultralytics und Modellen mit offenem Vokabular.

Multimodale KI bezeichnet eine hochentwickelte Klasse von Künstliche-Intelligenz-Systemen (KI), die dafür ausgelegt sind, Informationen aus mehreren verschiedenen Datentypen oder „Modalitäten“ gleichzeitig zu verarbeiten, zu interpretieren und zu synthetisieren. Im Gegensatz zu herkömmlichen unimodalen Systemen, die auf eine einzige Eingabequelle spezialisiert sind – wie beispielsweise Natural Language Processing (NLP) für Text oder Computer Vision (CV) für Bilder – ahmt multimodale KI die menschliche Wahrnehmung nach, indem sie verschiedene Datenströme integriert. Diese Integration kann die Kombination von visuellen Daten (Bilder, Videos) mit sprachlichen Daten (Text, gesprochene Audioaufnahmen) und sensorischen Informationen (LiDAR, Radar, Wärmebild) umfassen. Durch die Nutzung dieser kombinierten Eingaben erreichen diese Modelle ein tieferes, kontextbewussteres Verständnis komplexer realer Szenarien und nähern sich damit den umfassenden Fähigkeiten der künstlichen allgemeinen Intelligenz (AGI) an.

Wie multimodale Systeme funktionieren

Die Kernstärke der multimodalen KI liegt in ihrer Fähigkeit, verschiedene Datentypen in einen gemeinsamen mathematischen Raum abzubilden , in dem sie verglichen und kombiniert werden können. Dieser Prozess umfasst in der Regel drei wichtige Phasen: Kodierung, Abgleich und Fusion.

  1. Merkmalsextraktion: Spezialisierte neuronale Netze verarbeiten jede Modalität unabhängig voneinander, um wichtige Muster zu identifizieren. Beispielsweise kann ein Convolutional Neural Network (CNN) visuelle Merkmale aus einem Foto extrahieren, während ein Transformer die dazugehörige Bildunterschrift verarbeitet.
  2. Ausrichtung und Einbettungen: Die extrahierten Merkmale werden in hochdimensionale numerische Vektoren umgewandelt. Das Modell lernt, diese Vektoren so auszurichten, dass semantisch ähnliche Konzepte (z. B. ein Bild einer Katze und das Wort „Katze”) im Vektorraum nahe beieinander liegen . Dies wird häufig durch Techniken wie kontrastives Lernen erreicht, eine Methode, die bekanntlich in Modellen wie CLIP von OpenAI verwendet wird.
  3. Datenfusion: Das System führt die ausgerichteten Daten mithilfe fortschrittlicher Fusionstechniken zusammen. Moderne Architekturen verwenden Aufmerksamkeitsmechanismen, um die Bedeutung einer Modalität gegenüber einer anderen je nach Kontext dynamisch zu gewichten, sodass sich das Modell auf den Text konzentrieren kann, wenn das Bild mehrdeutig ist, oder umgekehrt.

Anwendungsfälle in der Praxis

Multimodale KI hat Möglichkeiten eröffnet, die mit Systemen mit nur einer Modalität bisher nicht möglich waren, und treibt damit Innovationen in verschiedenen Branchen voran.

  • Visuelle Beantwortung von Fragen (VQA): In dieser Anwendung kann ein Benutzer einer KI ein Bild präsentieren und dazu Fragen in natürlicher Sprache stellen. Beispielsweise könnte ein sehbehinderter Benutzer ein Foto seiner Vorratskammer hochladen und fragen: „Habe ich noch Nudeln übrig?“ Das Modell verarbeitet den visuellen Inhalt und die textuelle Anfrage, um eine konkrete Antwort zu geben.
  • Autonome Fahrzeuge: Selbstfahrende Autos sind stark auf multimodale Eingaben angewiesen und kombinieren Daten von Kameras, LiDAR-Punktwolken und Radar, um sicher zu navigieren. Diese Redundanz stellt sicher, dass bei Ausfall eines Sensors (z. B. einer durch Sonnenblendung geblendeten Kamera) andere die von der Society of Automotive Engineers (SAE) definierten Sicherheitsstandards aufrechterhalten können.
  • Gesundheitsdiagnostik: Fortschrittliche medizinische KI-Systeme analysieren medizinische Bilddaten (wie MRT- oder Röntgenaufnahmen) zusammen mit unstrukturierten Textdaten zur Krankengeschichte und genetischen Daten. Diese umfassende Sichtweise hilft Ärzten dabei, genauere Diagnosen zu stellen, ein Thema, das häufig in Nature Digital Medicine diskutiert wird.
  • Generative KI: Tools, die Bilder aus Textvorgaben erstellen, wie beispielsweise Stable Diffusion, sind vollständig auf die Fähigkeit des Modells angewiesen, die Beziehung zwischen sprachlichen Beschreibungen und visuellen Texturen zu verstehen.

Erkennung offener Vokabulare mit Ultralytics

Während herkömmliche Objektdetektoren auf vordefinierten Kategorielisten basieren, ermöglichen multimodale Ansätze wie YOLO den Benutzern detect mithilfe von Textbefehlen mit offenem Vokabular. Dies schließt die Lücke zwischen sprachlichen Befehlen und visueller Erkennung innerhalb des Ultralytics .

Das folgende Beispiel zeigt, wie man die ultralytics Bibliothek zur Erkennung von offenem Vokabular Erkennung, wobei das Modell Objekte auf der Grundlage von benutzerdefinierten Texteingaben erkennt:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Unterscheidung verwandter Begriffe

Um sich in der Landschaft des modernen maschinellen Lernens zurechtzufinden, ist es hilfreich, „multimodale KI” von verwandten Konzepten zu unterscheiden:

  • Multimodales Lernen: Dies bezieht sich auf die akademische Disziplin und Methodik des Trainings von Algorithmen mit gemischten Datentypen. „Multimodale KI” bezieht sich im Allgemeinen auf die praktische Anwendung oder das resultierende System selbst.
  • Große Sprachmodelle (LLMs): Herkömmliche LLMs sind unimodal und werden ausschließlich mit Textdaten trainiert. Die Branche tendiert jedoch zunehmend zu „großen multimodalen Modellen“ (LMMs), die Bilder und Text nativ verarbeiten können. Dieser Trend wird durch Frameworks wie PyTorch und TensorFlowunterstützt wird.
  • Spezialisierte Vision-Modelle: Modelle wie das hochmoderne Ultralytics sind hochspezialisierte Experten für visuelle Aufgaben. Während ein allgemeines multimodales Modell eine Szene allgemein beschreiben kann, zeichnen sich spezialisierte Modelle durch schnelle, präzise Objekterkennung und Echtzeitverarbeitung auf Edge-Hardware aus.

Zukünftiger Ausblick

Die Entwicklung der multimodalen KI weist in Richtung von Systemen mit größeren Schlussfolgerungsfähigkeiten. Durch die erfolgreiche Verankerung von Sprache in der visuellen und physischen Realität gehen diese Modelle über statistische Korrelationen hinaus und entwickeln ein echtes Verständnis. Forschungen von Institutionen wie Google und dem Stanford Center for Research on Foundation Models erweitern weiterhin die Grenzen der Wahrnehmung komplexer Umgebungen durch Maschinen.

Bei Ultralytics integrieren wir diese Fortschritte in die Ultralytics , sodass Benutzer Daten verwalten, Modelle trainieren und Lösungen bereitstellen können, die das gesamte Spektrum der verfügbaren Modalitäten nutzen und die Geschwindigkeit von YOLO26 mit der Vielseitigkeit multimodaler Eingaben kombinieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten