Visual Prompting
Erkunde visuelles Prompting, um KI-Modelle mit Punkten und Boxen zu steuern. Lerne, wie Ultralytics YOLO und SAM präzise Segmentierung und schnellere Datenannotation ermöglichen.
Visual Prompting ist eine aufstrebende Technik im Bereich Computer Vision, bei der Nutzer räumliche oder visuelle Hinweise – wie Punkte, Bounding Boxes oder Skizzen – bereitstellen, um den Fokus eines KI-Modells auf bestimmte Objekte oder Regionen innerhalb eines Bildes zu lenken. Im Gegensatz zum herkömmlichen Prompt Engineering, das primär auf Textbeschreibungen beruht, ermöglicht Visual Prompting eine präzisere und intuitivere Interaktion mit Artificial Intelligence (AI)-Systemen. Diese Methode nutzt die Fähigkeiten moderner Foundation Models, um Aufgaben wie Segmentierung und Detektion durchzuführen, ohne dass umfangreiche Nachtrainings oder große, gelabelte Datensätze erforderlich sind. Indem Nutzer effektiv auf das Wesentliche „zeigen“, können sie Allzweckmodelle sofort an neue Aufgaben anpassen und so die Lücke zwischen menschlicher Absicht und maschineller Wahrnehmung schließen.
Link to this sectionMechanismen des Visual Prompting#
Im Kern funktioniert Visual Prompting dadurch, dass räumliche Informationen direkt in die Verarbeitungspipeline des Modells eingespeist werden. Wenn ein Nutzer auf ein Objekt klickt oder einen Rahmen zeichnet, werden diese Eingaben in koordinatenbasierte Embeddings umgewandelt, die das neuronale Netzwerk mit den Bildmerkmalen integriert. Dieser Prozess ist zentral für interaktive Architekturen wie das Segment Anything Model (SAM), bei dem das Modell Masken auf Basis geometrischer Prompts vorhersagt.
Die Flexibilität des Visual Prompting erlaubt verschiedene Interaktionsarten:
- Punkt-Prompts: Ein Nutzer klickt auf einen bestimmten Pixel, um das gewünschte Objekt zu markieren. Das Modell erweitert diese Auswahl dann auf die gesamten Objektgrenzen.
- Box-Prompts: Das Zeichnen einer Bounding Box bietet eine grobe Lokalisierung und signalisiert dem Modell, alles innerhalb dieses Bereichs zu segmentieren oder zu klassifizieren.
- Skizzen-Prompts (Scribble Prompts): Freihandlinien, die über ein Objekt gezeichnet werden, können dabei helfen, komplexe Szenen zu disambiguieren, in denen sich Objekte überlappen oder ähnliche Texturen aufweisen.
Aktuelle Forschungsergebnisse, die auf der CVPR 2024 vorgestellt wurden, verdeutlichen, wie Visual Prompting den Zeitaufwand für Data Annotation erheblich reduziert, da menschliche Annotatoren Modellvorhersagen in Echtzeit mit einfachen Klicks korrigieren können, anstatt Polygone manuell nachzuzeichnen.
Link to this sectionVisual Prompting vs. Text Prompting#
Obwohl beide Techniken darauf abzielen, das Modellverhalten zu steuern, ist es wichtig, Visual Prompting von textbasierten Methoden zu unterscheiden. Text-to-Image-Generierung oder Zero-Shot-Detektion stützen sich auf Natural Language Processing (NLP), um semantische Beschreibungen (z. B. „finde das rote Auto“) zu interpretieren. Sprache kann jedoch mehrdeutig oder unzureichend sein, um präzise räumliche Orte oder abstrakte Formen zu beschreiben.
Visual Prompting löst diese Mehrdeutigkeit auf, indem es die Anweisung im Pixelraum selbst verankert. In der medizinischen Bildanalyse ist es beispielsweise für einen Radiologen weitaus genauer, auf einen verdächtigen Knoten zu klicken, als zu versuchen, dessen exakte Koordinaten und unregelmäßige Form per Text zu beschreiben. Oft kombinieren die leistungsfähigsten Workflows beide Ansätze – Text für die semantische Filterung und visuelle Prompts für die räumliche Präzision –, ein Konzept, das als Multi-Modal Learning bekannt ist.
Link to this sectionPraxisanwendungen#
Die Anpassungsfähigkeit des Visual Prompting hat zu einer schnellen Einführung in verschiedenen Branchen geführt:
- Interaktive medizinische Diagnostik: Ärzte nutzen Visual-Prompting-Tools, um Tumore oder Organe in MRT-Scans zu isolieren. Durch einfaches Klicken auf eine interessierende Region können sie sofort volumetrische 3D-Messungen generieren, was die präzise Tumorerkennung und chirurgische Planung unterstützt.
- Intelligente Fotobearbeitung: In Consumer-Software wie Adobe Photoshop oder mobilen Apps treibt Visual Prompting „Magic Select“-Tools an. Nutzer können auf eine Person oder ein Objekt tippen, um den Hintergrund zu entfernen oder gezielte Filter anzuwenden, wobei zugrunde liegende Instance Segmentation-Technologien genutzt werden, ohne dass manuelle Maskierungsfähigkeiten erforderlich sind.
- Robotische Manipulation: Im Bereich AI in Robotics können Roboter angewiesen werden, bestimmte Artikel über eine visuelle Schnittstelle aufzunehmen. Ein Bediener klickt auf ein Objekt im Kamera-Feed des Roboters und liefert so einen visuellen Prompt, den der Roboter in Greifkoordinaten übersetzt, was die Human-in-the-Loop-Automatisierung in Lagerhäusern erleichtert.
Link to this sectionImplementierung mit Ultralytics#
Das Ultralytics-Ökosystem unterstützt Visual-Prompting-Workflows, insbesondere durch Modelle wie FastSAM und SAM. Diese Modelle ermöglichen es Entwicklern, Punkt- oder Box-Koordinaten programmgesteuert zu übergeben, um Segmentierungsmasken abzurufen.
Das folgende Beispiel demonstriert, wie man das ultralytics-Paket verwendet, um einen Punkt-Prompt auf ein Bild anzuwenden und das Modell anzuweisen, das an bestimmten Koordinaten befindliche Objekt zu segmentieren.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()Link to this sectionFörderung der Modell-Agilität#
Visual Prompting stellt einen Wandel in Richtung „promptable“ Computer Vision dar, bei dem Modelle keine statischen „Black Boxes“ mehr sind, sondern interaktive Werkzeuge. Diese Fähigkeit ist essenziell für Active Learning-Schleifen, in denen sich Modelle durch die Einbeziehung von Nutzerfeedback schnell verbessern.
Für Entwickler, die diese Fähigkeiten in die Produktion integrieren möchten, bietet die Ultralytics Platform Tools zur Verwaltung von Datensätzen und zur Bereitstellung von Modellen, die dynamische Eingaben verarbeiten können. Mit fortschreitender Forschung erwarten wir eine noch engere Integration zwischen visuellen Prompts und Large Language Models (LLMs), was Systeme ermöglicht, die visuelle Eingaben mit derselben Geläufigkeit interpretieren können, mit der sie derzeit Text verarbeiten.






