Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Optimierung der visuellen Anweisungen

Erfahren Sie, wie Vision-Language-Modelle durch visuelle Feinabstimmung in die Lage versetzt werden, menschlichen Anweisungen zu folgen. Lernen Sie, wie Sie mit Ultralytics komplexe KI-Workflows erstellen.

Die visuelle Anweisungsoptimierung ist eine bahnbrechende Technik des maschinellen Lernens, die traditionelle Methoden der natürlichen Sprachverarbeitung auf den multimodalen Bereich ausweitet. Indem sie ein Vision Language Model (VLM) darauf trainieren, explizite menschliche Anweisungen auf der Grundlage von Bild- oder Videoeingaben zu befolgen, können Entwickler KI-Assistenten erstellen, die visuelle Inhalte verstehen und darüber logisch schlussfolgern. Im Gegensatz zu herkömmlichen Bildklassifizierungsmodellen, die eine vordefinierte Kategorie ausgeben, befähigt Visual Instruction Tuning Modelle dazu, komplexe, offene Aufgaben auszuführen – wie beispielsweise die Beschreibung einer Szene, das Lesen von Text innerhalb eines Bildes oder die Beantwortung spezifischer Fragen zu räumlichen Beziehungen. Dies überbrückt die Lücke zwischen textbasierten großen Sprachmodellen (LLMs) und herkömmlichen Computer-Vision-Pipelines.

Das Konzept und die Unterschiede verstehen

Um das Konzept der visuellen Anweisungsoptimierung zu verstehen, ist es hilfreich, es von eng verwandten Konzepten im KI-Ökosystem abzugrenzen:

  • Anweisungsoptimierung: Bezieht sich in der Regel auf die Anpassung von rein textbasierten LLMs, damit diese menschliche Absichten sicher und präzise umsetzen. Bei der visuellen Anweisungsoptimierung wird dieselbe Methodik angewendet, jedoch werden Bilder in die Eingabeaufforderung und die erwartete Ausgabe integriert.
  • Visuelle Eingabe: Dabei wird in der Regel mithilfe visueller Hinweise – wie dem Zeichnen eines Begrenzungsrahmens, dem Setzen eines Punktes oder dem Ausblenden eines Bereichs auf einem Bild – mit einer KI interagiert, um den Fokus des Modells zu lenken. Im Gegensatz dazu stützt sich die visuelle Anweisungsoptimierung stark auf Befehle in natürlicher Sprache, die mit den visuellen Daten kombiniert werden.

Der Trainingsprozess umfasst in der Regel die Feinabstimmung eines vortrainierten multimodalen Basismodells unter Verwendung umfangreicher Datensätze, die als Bild-Text-Anweisungs-Tripletts formatiert sind. Wegweisende arXiv-Forschung zur Feinabstimmung anhand visueller Anweisungen, wie beispielsweise das LLaVA-Projekt (Large Language-and-Vision Assistant), hat gezeigt, dass diese Modelle bemerkenswerte Zero-Shot-Fähigkeiten erreichen können. Heute nutzen große KI-Organisationen diese Technik, um fortschrittliche Modelle zu betreiben, darunter OpenAI GPT-4o, Anthropic 3.5 Sonnet und Google Gemini.

Anwendungsfälle in der Praxis

Durch die Abstimmung multimodaler Deep-Learning- Architekturen auf menschliche Absichten ermöglicht die visuelle Anweisungsoptimierung hochgradig interaktive Anwendungen in verschiedenen Branchen:

  • KI in der medizinischen Diagnostik: Medizinisches Fachpersonal kann anweisungsbasierte Modelle für die visuelle Fragebeantwortung (VQA) nutzen. Ein Radiologe könnte dem System ein Röntgenbild und die Anweisung „Markieren und erläutern Sie alle Anzeichen einer Lungenentzündung im linken Unterlappen“ vorlegen, wodurch die KI als kooperativer Diagnoseassistent fungieren kann.
  • KI in der Qualitätskontrolle in der Fertigung: Anstatt ein starres Modell zur Fehlererkennung von Grund auf neu zu trainieren, können Bediener ein Bildverarbeitungssystem wie Microsoft anweisen, indem sie sagen: „Identifiziere alle mikroskopisch kleinen Kratzer oder Dellen an diesem neu gefertigten Metallgehäuse.“

Erstellung von Vision-Workflows

Um Systeme zu entwickeln, die diese Funktionen nutzen, greifen Entwickler häufig auf robuste Objekterkennungsmodelle zurück, um strukturelle Informationen aus Bildern zu extrahieren, bevor diese Daten an ein VLM weitergeleitet werden. Mithilfe der PyTorch oder TensorFlow können Entwickler hybride Pipelines erstellen.

Sie können beispielsweise einYOLO Ultralytics verwenden, um eine Szene schnell zu erfassen und eine fundierte Sprach- Eingabeaufforderung für ein nachgeschaltetes VLM zu generieren:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Die Verwaltung der komplexen, multimodalen Datensätze, die für diese Anwendungen der nächsten Generation erforderlich sind, kann eine Herausforderung darstellen. Die Ultralytics vereinfacht diesen Prozess durch die Bereitstellung von End-to-End-Tools für die Annotation von Datensätzen, das Training in der Cloud und die nahtlose Modellbereitstellung. Ganz gleich, ob Sie topaktuelle Fachartikel in der ACM Digital Library oder den IEEE Xplore-Archiven zum Thema Computer Vision lesen – der Wandel hin zu anwendungsoptimierten, leistungsstarken Bildverarbeitungssystemen stellt die Spitze der künstlichen Intelligenz dar. Durch die Kombination der YOLO26-W ahrnehmung mit optimierten Schlussfolgerungsmodellen können Unternehmen unglaublich robuste KI-Agenten bereitstellen.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens