Multimodale KI
Entdecken Sie multimodale KI und wie sie Text und Bild für ein kontextbezogenes Verständnis integriert. Lernen Sie noch heute den Umgang mit Ultralytics und Modellen mit offenem Vokabular.
Multimodale KI bezeichnet eine hochentwickelte Klasse von
Künstliche-Intelligenz-Systemen (KI),
die dafür ausgelegt sind, Informationen aus mehreren verschiedenen Datentypen oder
„Modalitäten“ gleichzeitig zu verarbeiten, zu interpretieren und zu synthetisieren. Im Gegensatz zu herkömmlichen unimodalen Systemen, die auf eine einzige Eingabequelle spezialisiert sind
– wie beispielsweise
Natural Language Processing (NLP)
für Text oder Computer Vision (CV) für
Bilder – ahmt multimodale KI die menschliche Wahrnehmung nach, indem sie verschiedene Datenströme integriert. Diese Integration kann die
Kombination von visuellen Daten (Bilder, Videos) mit sprachlichen Daten (Text, gesprochene Audioaufnahmen) und sensorischen Informationen (LiDAR, Radar,
Wärmebild) umfassen. Durch die Nutzung dieser kombinierten Eingaben erreichen diese Modelle ein tieferes, kontextbewussteres Verständnis
komplexer realer Szenarien und nähern sich damit den umfassenden Fähigkeiten der
künstlichen allgemeinen Intelligenz (AGI) an.
Wie multimodale Systeme funktionieren
Die Kernstärke der multimodalen KI liegt in ihrer Fähigkeit, verschiedene Datentypen in einen gemeinsamen mathematischen Raum abzubilden
, in dem sie verglichen und kombiniert werden können. Dieser Prozess umfasst in der Regel drei wichtige Phasen: Kodierung, Abgleich und
Fusion.
-
Merkmalsextraktion:
Spezialisierte neuronale Netze verarbeiten jede Modalität unabhängig voneinander, um wichtige Muster zu identifizieren. Beispielsweise kann ein
Convolutional Neural Network (CNN)
visuelle Merkmale aus einem Foto extrahieren, während ein
Transformer die dazugehörige Bildunterschrift verarbeitet.
-
Ausrichtung und Einbettungen: Die
extrahierten Merkmale werden in hochdimensionale numerische Vektoren umgewandelt. Das Modell lernt, diese Vektoren so auszurichten, dass
semantisch ähnliche Konzepte (z. B. ein Bild einer Katze und das Wort „Katze”) im Vektorraum nahe beieinander liegen
. Dies wird häufig durch Techniken wie
kontrastives Lernen erreicht, eine Methode, die bekanntlich
in Modellen wie CLIP von OpenAI verwendet wird.
-
Datenfusion: Das System führt die ausgerichteten Daten mithilfe fortschrittlicher
Fusionstechniken zusammen. Moderne Architekturen verwenden
Aufmerksamkeitsmechanismen, um die
Bedeutung einer Modalität gegenüber einer anderen je nach Kontext dynamisch zu gewichten, sodass sich das Modell auf den Text konzentrieren kann, wenn das
Bild mehrdeutig ist, oder umgekehrt.
Anwendungsfälle in der Praxis
Multimodale KI hat Möglichkeiten eröffnet, die mit Systemen mit nur einer Modalität bisher nicht möglich waren, und treibt damit
Innovationen in verschiedenen Branchen voran.
-
Visuelle Beantwortung von Fragen (VQA):
In dieser Anwendung kann ein Benutzer einer KI ein Bild präsentieren und dazu Fragen in natürlicher Sprache stellen. Beispielsweise
könnte ein sehbehinderter Benutzer ein Foto seiner Vorratskammer hochladen und fragen: „Habe ich noch Nudeln übrig?“ Das Modell
verarbeitet den visuellen Inhalt und die textuelle Anfrage, um eine konkrete Antwort zu geben.
-
Autonome Fahrzeuge:
Selbstfahrende Autos sind stark auf multimodale Eingaben angewiesen und kombinieren Daten von Kameras, LiDAR-Punktwolken und Radar, um
sicher zu navigieren. Diese Redundanz stellt sicher, dass bei Ausfall eines Sensors (z. B. einer durch Sonnenblendung geblendeten Kamera) andere
die von der
Society of Automotive Engineers (SAE) definierten Sicherheitsstandards aufrechterhalten können.
-
Gesundheitsdiagnostik:
Fortschrittliche medizinische KI-Systeme analysieren
medizinische Bilddaten (wie MRT- oder
Röntgenaufnahmen) zusammen mit unstrukturierten Textdaten zur Krankengeschichte und genetischen Daten. Diese umfassende Sichtweise hilft Ärzten dabei,
genauere Diagnosen zu stellen, ein Thema, das häufig in
Nature Digital Medicine diskutiert wird.
-
Generative KI: Tools, die
Bilder aus Textvorgaben erstellen, wie beispielsweise
Stable Diffusion, sind vollständig auf die Fähigkeit des Modells angewiesen,
die Beziehung zwischen sprachlichen Beschreibungen und visuellen Texturen zu verstehen.
Erkennung offener Vokabulare mit Ultralytics
Während herkömmliche Objektdetektoren auf vordefinierten Kategorielisten basieren, ermöglichen multimodale Ansätze wie
YOLO den Benutzern detect mithilfe von
Textbefehlen mit offenem Vokabular. Dies schließt die Lücke zwischen sprachlichen Befehlen und visueller Erkennung innerhalb des
Ultralytics .
Das folgende Beispiel zeigt, wie man die ultralytics Bibliothek zur Erkennung von offenem Vokabular
Erkennung, wobei das Modell Objekte auf der Grundlage von benutzerdefinierten Texteingaben erkennt:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Unterscheidung verwandter Begriffe
Um sich in der Landschaft des modernen maschinellen Lernens zurechtzufinden, ist es hilfreich, „multimodale KI” von
verwandten Konzepten zu unterscheiden:
-
Multimodales Lernen: Dies
bezieht sich auf die akademische Disziplin und Methodik des Trainings von Algorithmen mit gemischten Datentypen.
„Multimodale KI” bezieht sich im Allgemeinen auf die praktische Anwendung oder das resultierende System selbst.
-
Große Sprachmodelle (LLMs):
Herkömmliche LLMs sind unimodal und werden ausschließlich mit Textdaten trainiert. Die Branche tendiert jedoch zunehmend zu
„großen multimodalen Modellen“ (LMMs), die Bilder und Text nativ verarbeiten können. Dieser Trend wird durch
Frameworks wie PyTorch und TensorFlowunterstützt wird.
-
Spezialisierte Vision-Modelle: Modelle wie das hochmoderne
Ultralytics sind hochspezialisierte Experten für
visuelle Aufgaben. Während ein allgemeines multimodales Modell eine Szene allgemein beschreiben kann, zeichnen sich spezialisierte Modelle durch
schnelle, präzise Objekterkennung und
Echtzeitverarbeitung auf Edge-Hardware aus.
Zukünftiger Ausblick
Die Entwicklung der multimodalen KI weist in Richtung von Systemen mit größeren Schlussfolgerungsfähigkeiten. Durch die erfolgreiche
Verankerung von Sprache in der visuellen und physischen Realität gehen diese Modelle über statistische Korrelationen hinaus und entwickeln ein
echtes Verständnis. Forschungen von Institutionen wie Google und dem
Stanford Center for Research on Foundation Models erweitern weiterhin die
Grenzen der Wahrnehmung komplexer Umgebungen durch Maschinen.
Bei Ultralytics integrieren wir diese Fortschritte in die
Ultralytics , sodass Benutzer Daten verwalten, Modelle trainieren und
Lösungen bereitstellen können, die das gesamte Spektrum der verfügbaren Modalitäten nutzen und die Geschwindigkeit von
YOLO26 mit der Vielseitigkeit multimodaler Eingaben kombinieren.