Visual Instruction Tuning

Entdecke, wie visuelles Instruktionstuning Vision Language Models in die Lage versetzt, menschlichen Anweisungen zu folgen. Lerne, mit Ultralytics YOLO26 fortschrittliche KI-Workflows zu erstellen.

Visuelles Instruktionstuning ist eine transformative Machine-Learning-Technik, die herkömmliche Methoden der natürlichen Sprachverarbeitung auf den multimodalen Bereich ausweitet. Durch das Training eines Vision Language Model (VLM), expliziten menschlichen Anweisungen auf Basis von Bild- oder Videoeingaben zu folgen, können Entwickler KI-Assistenten erstellen, die visuelle Inhalte verstehen und interpretieren. Im Gegensatz zu Standardmodellen für Bildklassifizierung, die eine vordefinierte Kategorie ausgeben, befähigt visuelles Instruktionstuning Modelle dazu, komplexe, offene Aufgaben auszuführen – wie etwa eine Szene zu beschreiben, Text innerhalb eines Bildes zu lesen oder spezifische Fragen zu räumlichen Beziehungen zu beantworten. Dies schließt die Lücke zwischen textbasierten Large Language Models (LLMs) und herkömmlichen Computer Vision-Pipelines.

Link to this sectionDas Konzept und die Unterschiede verstehen#

Um visuelles Instruktionstuning zu verstehen, ist es hilfreich, es von eng verwandten Konzepten im KI-Ökosystem abzugrenzen:

Instruktionstuning: Bezieht sich normalerweise darauf, reine Text-LLMs darauf auszurichten, menschliche Absichten sicher und präzise zu befolgen. Visuelles Instruktionstuning wendet dieselbe Methodik an, bezieht jedoch Bilder in die Eingabeaufforderung und die erwartete Ausgabe ein.
Visuelles Prompting: Beinhaltet in der Regel die Interaktion mit einer KI mittels visueller Hinweise – wie das Zeichnen einer BBox, das Setzen eines Punktes oder das Maskieren eines Bereichs in einem Bild –, um den Fokus des Modells zu steuern. Im Gegensatz dazu stützt sich visuelles Instruktionstuning stark auf Anweisungen in natürlicher Sprache, die mit den visuellen Daten kombiniert werden.

Der Trainingsprozess beinhaltet in der Regel das Fine-Tuning eines vortrainierten multimodalen Basismodells unter Verwendung umfangreicher Datensätze, die als Bild-Text-Instruktions-Tripletts formatiert sind. Wegweisende arXiv-Forschung zum visuellen Instruktionstuning, wie das Projekt LLaVA (Large Language-and-Vision Assistant), hat gezeigt, dass diese Modelle bemerkenswerte Zero-Shot-Fähigkeiten erreichen können. Heute setzen führende KI-Organisationen diese Technik ein, um fortschrittliche Modelle wie OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet und Google DeepMind Gemini zu betreiben.

Link to this sectionAnwendungen in der Praxis#

Durch die Ausrichtung von multimodalen Deep-Learning-Architekturen auf menschliche Absichten ermöglicht visuelles Instruktionstuning hochgradig interaktive Anwendungen in verschiedenen Branchen:

KI in der medizinischen Diagnostik: Medizinisches Fachpersonal kann instruktionstuning-basierte Modelle für Visual Question Answering (VQA) nutzen. Ein Radiologe könnte das System mit einem Röntgenbild und der Anweisung auffordern: „Markiere und erkläre Anzeichen einer Lungenentzündung im linken unteren Lungenlappen“, wodurch die KI als unterstützender diagnostischer Assistent fungieren kann.
KI in der Fertigungsqualitätskontrolle: Anstatt von Grund auf ein starres Modell zur Fehlererkennung zu trainieren, können Bediener ein Visionssystem wie Microsoft Florence-2 anweisen, indem sie sagen: „Identifiziere alle mikroskopischen Kratzer oder Dellen auf diesem neu gefertigten Metallgehäuse.“

Link to this sectionVision-Workflows aufbauen#

Um Systeme zu bauen, die diese Fähigkeiten nutzen, verlassen sich Entwickler häufig auf robuste Objekterkennungs-Modelle, um strukturellen Kontext aus Bildern zu extrahieren, bevor diese Daten an ein VLM weitergeleitet werden. Unter Verwendung der PyTorch-Dokumentation für multimodale Modelle oder TensorFlow-Vision-Modellen können Entwickler hybride Pipelines erstellen.

Du kannst zum Beispiel ein Ultralytics YOLO-Modell verwenden, um eine Szene schnell zu erfassen und einen fundierten Sprach-Prompt für ein nachgeschaltetes VLM zu generieren:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Die Verwaltung der komplexen, multimodalen Datensätze, die für diese Anwendungen der nächsten Generation erforderlich sind, kann eine Herausforderung darstellen. Die Ultralytics Platform vereinfacht diesen Prozess, indem sie End-to-End-Tools für die Datensatz-Annotation, Cloud-Training und nahtlose Modellbereitstellung bereitstellt. Egal, ob du aktuelle wissenschaftliche Publikationen in der ACM digital library oder in den IEEE Xplore-Archiven für Computer Vision liest – der Wandel hin zu instruktionstuning-basierten, leistungsfähigen Visionssystemen repräsentiert die Speerspitze der künstlichen Intelligenz. Durch die Kombination von YOLO26-Wahrnehmung mit spezialisierten Reasoning-Modellen können Organisationen unglaublich robuste KI-Agenten bereitstellen.

Visual Instruction Tuning

Link to this sectionDas Konzept und die Unterschiede verstehen#

Link to this sectionAnwendungen in der Praxis#

Link to this sectionVision-Workflows aufbauen#

Explore solutions

KI in der Landwirtschaft

KI in der Automobilindustrie

KI im Gesundheitswesen

KI im Einzelhandel

KI in der Robotik

KI in der Fertigung

KI in der Logistik

KI in der Landwirtschaft

KI in der Automobilindustrie

KI im Gesundheitswesen

KI im Einzelhandel

KI in der Robotik

KI in der Fertigung

KI in der Logistik

KI in der Landwirtschaft

KI in der Automobilindustrie

KI im Gesundheitswesen

KI im Einzelhandel

KI in der Robotik

KI in der Fertigung

KI in der Logistik

Lass uns gemeinsam die Zukunft der KI bauen!