Entdecken Sie multimodale KI und wie sie Text und Bild für ein kontextbezogenes Verständnis integriert. Lernen Sie noch heute den Umgang mit Ultralytics und Modellen mit offenem Vokabular.
Multimodale KI bezeichnet eine hochentwickelte Klasse von Künstliche-Intelligenz-Systemen (KI), die dafür ausgelegt sind, Informationen aus mehreren verschiedenen Datentypen oder „Modalitäten“ gleichzeitig zu verarbeiten, zu interpretieren und zu synthetisieren. Im Gegensatz zu herkömmlichen unimodalen Systemen, die auf eine einzige Eingabequelle spezialisiert sind – wie beispielsweise Natural Language Processing (NLP) für Text oder Computer Vision (CV) für Bilder – ahmt multimodale KI die menschliche Wahrnehmung nach, indem sie verschiedene Datenströme integriert. Diese Integration kann die Kombination von visuellen Daten (Bilder, Videos) mit sprachlichen Daten (Text, gesprochene Audioaufnahmen) und sensorischen Informationen (LiDAR, Radar, Wärmebild) umfassen. Durch die Nutzung dieser kombinierten Eingaben erreichen diese Modelle ein tieferes, kontextbewussteres Verständnis komplexer realer Szenarien und nähern sich damit den umfassenden Fähigkeiten der künstlichen allgemeinen Intelligenz (AGI) an.
Die Kernstärke der multimodalen KI liegt in ihrer Fähigkeit, verschiedene Datentypen in einen gemeinsamen mathematischen Raum abzubilden , in dem sie verglichen und kombiniert werden können. Dieser Prozess umfasst in der Regel drei wichtige Phasen: Kodierung, Abgleich und Fusion.
Multimodale KI hat Möglichkeiten eröffnet, die mit Systemen mit nur einer Modalität bisher nicht möglich waren, und treibt damit Innovationen in verschiedenen Branchen voran.
Während herkömmliche Objektdetektoren auf vordefinierten Kategorielisten basieren, ermöglichen multimodale Ansätze wie YOLO den Benutzern detect mithilfe von Textbefehlen mit offenem Vokabular. Dies schließt die Lücke zwischen sprachlichen Befehlen und visueller Erkennung innerhalb des Ultralytics .
Das folgende Beispiel zeigt, wie man die ultralytics Bibliothek zur Erkennung von offenem Vokabular
Erkennung, wobei das Modell Objekte auf der Grundlage von benutzerdefinierten Texteingaben erkennt:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Um sich in der Landschaft des modernen maschinellen Lernens zurechtzufinden, ist es hilfreich, „multimodale KI” von verwandten Konzepten zu unterscheiden:
Die Entwicklung der multimodalen KI weist in Richtung von Systemen mit größeren Schlussfolgerungsfähigkeiten. Durch die erfolgreiche Verankerung von Sprache in der visuellen und physischen Realität gehen diese Modelle über statistische Korrelationen hinaus und entwickeln ein echtes Verständnis. Forschungen von Institutionen wie Google und dem Stanford Center for Research on Foundation Models erweitern weiterhin die Grenzen der Wahrnehmung komplexer Umgebungen durch Maschinen.
Bei Ultralytics integrieren wir diese Fortschritte in die Ultralytics , sodass Benutzer Daten verwalten, Modelle trainieren und Lösungen bereitstellen können, die das gesamte Spektrum der verfügbaren Modalitäten nutzen und die Geschwindigkeit von YOLO26 mit der Vielseitigkeit multimodaler Eingaben kombinieren.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens