Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Vision-Sprachmodell (VLM)

Entdecken Sie Vision Language Models (VLM) mit Ultralytics. Erfahren Sie, wie sie mithilfe von Ultralytics eine Brücke zwischen Computer Vision und LLMs für VQA und Open-Vocabulary-Erkennung schlagen.

Ein Vision Language Model (VLM) ist eine Art künstlicher Intelligenz, die sowohl visuelle Informationen (Bilder oder Videos) als auch Textinformationen gleichzeitig verarbeiten und interpretieren kann. Im Gegensatz zu herkömmlichen Computervisionsmodellen, die sich ausschließlich auf Pixeldaten konzentrieren, oder Large Language Models (LLMs), die nur Text verstehen, schließen VLMs die Lücke zwischen diesen beiden Modalitäten. Durch das Training mit riesigen Datensätzen, die Bild-Text-Paare enthalten, lernen diese Modelle, visuelle Merkmale mit sprachlichen Konzepten zu verknüpfen, sodass sie Bilder beschreiben, Fragen zu visuellen Szenen beantworten und sogar Befehle ausführen können, basierend auf dem, was sie „sehen”.

Wie Vision-Sprachmodelle funktionieren

Im Kern bestehen VLMs in der Regel aus zwei Hauptkomponenten: einem Bild-Encoder und einem Text-Encoder. Der Bild-Encoder verarbeitet Bilder, um Merkmalskarten und visuelle Darstellungen zu extrahieren, während der Text-Encoder die sprachlichen Eingaben verarbeitet. Diese unterschiedlichen Datenströme werden dann mithilfe von Mechanismen wie Cross-Attention zusammengeführt, um die visuellen und textuellen Informationen in einem gemeinsamen Einbettungsraum aufeinander abzustimmen.

Die jüngsten Fortschritte in den Jahren 2024 und 2025 haben zu einheitlicheren Architekturen geführt, bei denen ein einziges Transformer-Backbone beide Modalitäten verarbeitet. Modelle wie beispielsweise Google 2 zeigen, wie die effektive Integration dieser Ströme die Leistung bei komplexen Denkaufgaben verbessern kann. Diese Angleichung ermöglicht es dem Modell, den Kontext zu verstehen, beispielsweise zu erkennen, dass sich das Wort „Apfel” in einem Bild eines Lebensmittelladens auf eine Frucht bezieht, in einem Logo jedoch auf ein Technologieunternehmen.

Anwendungsfälle in der Praxis

Die Fähigkeit, die Welt sowohl durch Sehen als auch durch Sprache zu verstehen, eröffnet vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen:

  • Visuelle Beantwortung von Fragen (VQA): VLMs werden häufig in der Gesundheitsdiagnostik eingesetzt, um Radiologen zu unterstützen. Ein Arzt könnte ein System fragen: „Gibt es eine Fraktur auf diesem Röntgenbild?“ Das Modell analysiert das medizinische Bild und liefert eine vorläufige Beurteilung, wodurch Diagnosefehler reduziert werden.
  • Intelligente E-Commerce-Suche: Im Einzelhandel ermöglichen VLMs den Nutzern die Suche nach Produkten anhand von Beschreibungen in natürlicher Sprache in Kombination mit Bildern. Ein Käufer könnte ein Foto des Outfits einer Berühmtheit hochladen und fragen: „Finde mir ein Kleid mit diesem Muster, aber in Blau“, woraufhin das System mithilfe einer semantischen Suche passende Ergebnisse findet.
  • Automatische Untertitelung und Barrierefreiheit: VLMs generieren automatisch beschreibenden Alt-Text für Bilder im Internet, wodurch digitale Inhalte für sehbehinderte Nutzer, die auf Screenreader angewiesen sind, besser zugänglich werden.

Unterscheidung von VLMs von verwandten Konzepten

Es ist hilfreich, VLMs von anderen KI-Kategorien zu unterscheiden, um ihre spezifische Rolle zu verstehen:

  • VLM vs. LLM: Ein großes Sprachmodell (wie GPT-4 Textversionen) verarbeitet nur Textdaten. Es kann zwar kreative Geschichten oder Code generieren, aber es kann keine Bilder „sehen”. Ein VLM gibt einem LLM praktisch Augen.
  • YOLO LM vs. Objekterkennung: Herkömmliche Objekterkennungsmodelle, wie beispielsweise frühe YOLO-Versionen , identifizieren, wo sich Objekte befinden und zu welcher Klasse sie gehören (z. B. „Auto: 99 %“). Ein VLM geht noch einen Schritt weiter, indem es Beziehungen und Attribute versteht, wie beispielsweise „ein roter Sportwagen, der neben einem Hydranten geparkt ist“.
  • VLM vs. multimodale KI: Multimodale KI ist ein weiter gefasster Oberbegriff. Während alle VLMs multimodal sind (sie kombinieren Bildverarbeitung und Sprache), sind nicht alle multimodalen Modelle VLMs; einige kombinieren möglicherweise Audio und Text (wie Speech-to-Text) oder Video und Sensordaten ohne Sprachkomponente.

Erkennung mit offenem Vokabular mit YOLO

Moderne VLMs ermöglichen die Erkennung mit „offenem Vokabular“, bei der detect anhand von Freitext-Eingaben anstelle vordefinierter Klassen detect können. Dies ist ein wesentliches Merkmal von Modellen wie Ultralytics YOLO, das dynamische Klassendefinitionen ohne erneutes Training ermöglicht.

Das folgende Beispiel zeigt, wie man die ultralytics Paket zum detect Objekte, die durch Text beschrieben werden:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Herausforderungen und zukünftige Richtungen

Vision Language Models sind zwar leistungsstark, stehen jedoch vor erheblichen Herausforderungen. Ein großes Problem ist die Halluzination, bei der das Modell mit großer Sicherheit Objekte oder Texte in einem Bild beschreibt, die einfach nicht vorhanden sind. Forscher arbeiten aktiv an Techniken wie Reinforcement Learning from Human Feedback (RLHF) , um die Bodenständigkeit und Genauigkeit zu verbessern.

Eine weitere Herausforderung sind die Rechenkosten. Das Training dieser umfangreichen Modelle erfordert erhebliche GPU . Die Veröffentlichung effizienter Architekturen wie Ultralytics trägt jedoch dazu bei, Edge-Geräte mit fortschrittlichen Bildverarbeitungsfunktionen auszustatten. Wir gehen davon aus, dass VLMs in Zukunft eine entscheidende Rolle bei Roboteragenten spielen werden, indem sie Robotern die Navigation und Manipulation von Objekten auf der Grundlage komplexer verbaler Anweisungen ermöglichen.

Für diejenigen, die sich für die theoretischen Grundlagen interessieren, bietet das Original- CLIP-Papier von OpenAI einen hervorragenden Einblick in das kontrastive Vor-Training von Sprache und Bild. Darüber hinaus ist es unerlässlich, sich über die CVPR-Konferenzbeiträge auf dem Laufenden zu halten, um die rasante Entwicklung dieser Architekturen zu verfolgen. Um mit dem Training Ihrer eigenen Bildverarbeitungsmodelle zu experimentieren, können Sie die Ultralytics für eine optimierte Datenverwaltung und Modellbereitstellung nutzen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten