Entdecken Sie Vision Language Models (VLM) mit Ultralytics. Erfahren Sie, wie sie mithilfe von Ultralytics eine Brücke zwischen Computer Vision und LLMs für VQA und Open-Vocabulary-Erkennung schlagen.
Ein Vision Language Model (VLM) ist eine Art künstlicher Intelligenz, die sowohl visuelle Informationen (Bilder oder Videos) als auch Textinformationen gleichzeitig verarbeiten und interpretieren kann. Im Gegensatz zu herkömmlichen Computervisionsmodellen, die sich ausschließlich auf Pixeldaten konzentrieren, oder Large Language Models (LLMs), die nur Text verstehen, schließen VLMs die Lücke zwischen diesen beiden Modalitäten. Durch das Training mit riesigen Datensätzen, die Bild-Text-Paare enthalten, lernen diese Modelle, visuelle Merkmale mit sprachlichen Konzepten zu verknüpfen, sodass sie Bilder beschreiben, Fragen zu visuellen Szenen beantworten und sogar Befehle ausführen können, basierend auf dem, was sie „sehen”.
Im Kern bestehen VLMs in der Regel aus zwei Hauptkomponenten: einem Bild-Encoder und einem Text-Encoder. Der Bild-Encoder verarbeitet Bilder, um Merkmalskarten und visuelle Darstellungen zu extrahieren, während der Text-Encoder die sprachlichen Eingaben verarbeitet. Diese unterschiedlichen Datenströme werden dann mithilfe von Mechanismen wie Cross-Attention zusammengeführt, um die visuellen und textuellen Informationen in einem gemeinsamen Einbettungsraum aufeinander abzustimmen.
Die jüngsten Fortschritte in den Jahren 2024 und 2025 haben zu einheitlicheren Architekturen geführt, bei denen ein einziges Transformer-Backbone beide Modalitäten verarbeitet. Modelle wie beispielsweise Google 2 zeigen, wie die effektive Integration dieser Ströme die Leistung bei komplexen Denkaufgaben verbessern kann. Diese Angleichung ermöglicht es dem Modell, den Kontext zu verstehen, beispielsweise zu erkennen, dass sich das Wort „Apfel” in einem Bild eines Lebensmittelladens auf eine Frucht bezieht, in einem Logo jedoch auf ein Technologieunternehmen.
Die Fähigkeit, die Welt sowohl durch Sehen als auch durch Sprache zu verstehen, eröffnet vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen:
Es ist hilfreich, VLMs von anderen KI-Kategorien zu unterscheiden, um ihre spezifische Rolle zu verstehen:
Moderne VLMs ermöglichen die Erkennung mit „offenem Vokabular“, bei der detect anhand von Freitext-Eingaben anstelle vordefinierter Klassen detect können. Dies ist ein wesentliches Merkmal von Modellen wie Ultralytics YOLO, das dynamische Klassendefinitionen ohne erneutes Training ermöglicht.
Das folgende Beispiel zeigt, wie man die ultralytics Paket zum detect Objekte,
die durch Text beschrieben werden:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Vision Language Models sind zwar leistungsstark, stehen jedoch vor erheblichen Herausforderungen. Ein großes Problem ist die Halluzination, bei der das Modell mit großer Sicherheit Objekte oder Texte in einem Bild beschreibt, die einfach nicht vorhanden sind. Forscher arbeiten aktiv an Techniken wie Reinforcement Learning from Human Feedback (RLHF) , um die Bodenständigkeit und Genauigkeit zu verbessern.
Eine weitere Herausforderung sind die Rechenkosten. Das Training dieser umfangreichen Modelle erfordert erhebliche GPU . Die Veröffentlichung effizienter Architekturen wie Ultralytics trägt jedoch dazu bei, Edge-Geräte mit fortschrittlichen Bildverarbeitungsfunktionen auszustatten. Wir gehen davon aus, dass VLMs in Zukunft eine entscheidende Rolle bei Roboteragenten spielen werden, indem sie Robotern die Navigation und Manipulation von Objekten auf der Grundlage komplexer verbaler Anweisungen ermöglichen.
Für diejenigen, die sich für die theoretischen Grundlagen interessieren, bietet das Original- CLIP-Papier von OpenAI einen hervorragenden Einblick in das kontrastive Vor-Training von Sprache und Bild. Darüber hinaus ist es unerlässlich, sich über die CVPR-Konferenzbeiträge auf dem Laufenden zu halten, um die rasante Entwicklung dieser Architekturen zu verfolgen. Um mit dem Training Ihrer eigenen Bildverarbeitungsmodelle zu experimentieren, können Sie die Ultralytics für eine optimierte Datenverwaltung und Modellbereitstellung nutzen.