Erfahren Sie, wie Vision-Language-Modelle durch visuelle Feinabstimmung in die Lage versetzt werden, menschlichen Anweisungen zu folgen. Lernen Sie, wie Sie mit Ultralytics komplexe KI-Workflows erstellen.
Die visuelle Anweisungsoptimierung ist eine bahnbrechende Technik des maschinellen Lernens, die traditionelle Methoden der natürlichen Sprachverarbeitung auf den multimodalen Bereich ausweitet. Indem sie ein Vision Language Model (VLM) darauf trainieren, explizite menschliche Anweisungen auf der Grundlage von Bild- oder Videoeingaben zu befolgen, können Entwickler KI-Assistenten erstellen, die visuelle Inhalte verstehen und darüber logisch schlussfolgern. Im Gegensatz zu herkömmlichen Bildklassifizierungsmodellen, die eine vordefinierte Kategorie ausgeben, befähigt Visual Instruction Tuning Modelle dazu, komplexe, offene Aufgaben auszuführen – wie beispielsweise die Beschreibung einer Szene, das Lesen von Text innerhalb eines Bildes oder die Beantwortung spezifischer Fragen zu räumlichen Beziehungen. Dies überbrückt die Lücke zwischen textbasierten großen Sprachmodellen (LLMs) und herkömmlichen Computer-Vision-Pipelines.
Um das Konzept der visuellen Anweisungsoptimierung zu verstehen, ist es hilfreich, es von eng verwandten Konzepten im KI-Ökosystem abzugrenzen:
Der Trainingsprozess umfasst in der Regel die Feinabstimmung eines vortrainierten multimodalen Basismodells unter Verwendung umfangreicher Datensätze, die als Bild-Text-Anweisungs-Tripletts formatiert sind. Wegweisende arXiv-Forschung zur Feinabstimmung anhand visueller Anweisungen, wie beispielsweise das LLaVA-Projekt (Large Language-and-Vision Assistant), hat gezeigt, dass diese Modelle bemerkenswerte Zero-Shot-Fähigkeiten erreichen können. Heute nutzen große KI-Organisationen diese Technik, um fortschrittliche Modelle zu betreiben, darunter OpenAI GPT-4o, Anthropic 3.5 Sonnet und Google Gemini.
Durch die Abstimmung multimodaler Deep-Learning- Architekturen auf menschliche Absichten ermöglicht die visuelle Anweisungsoptimierung hochgradig interaktive Anwendungen in verschiedenen Branchen:
Um Systeme zu entwickeln, die diese Funktionen nutzen, greifen Entwickler häufig auf robuste Objekterkennungsmodelle zurück, um strukturelle Informationen aus Bildern zu extrahieren, bevor diese Daten an ein VLM weitergeleitet werden. Mithilfe der PyTorch oder TensorFlow können Entwickler hybride Pipelines erstellen.
Sie können beispielsweise einYOLO Ultralytics verwenden, um eine Szene schnell zu erfassen und eine fundierte Sprach- Eingabeaufforderung für ein nachgeschaltetes VLM zu generieren:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
Die Verwaltung der komplexen, multimodalen Datensätze, die für diese Anwendungen der nächsten Generation erforderlich sind, kann eine Herausforderung darstellen. Die Ultralytics vereinfacht diesen Prozess durch die Bereitstellung von End-to-End-Tools für die Annotation von Datensätzen, das Training in der Cloud und die nahtlose Modellbereitstellung. Ganz gleich, ob Sie topaktuelle Fachartikel in der ACM Digital Library oder den IEEE Xplore-Archiven zum Thema Computer Vision lesen – der Wandel hin zu anwendungsoptimierten, leistungsstarken Bildverarbeitungssystemen stellt die Spitze der künstlichen Intelligenz dar. Durch die Kombination der YOLO26-W ahrnehmung mit optimierten Schlussfolgerungsmodellen können Unternehmen unglaublich robuste KI-Agenten bereitstellen.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens