Entdecken Sie visuelle Eingabeaufforderungen, um KI-Modelle mit Punkten und Kästchen zu steuern. Erfahren Sie, wie Ultralytics YOLO SAM eine präzise Segmentierung und schnellere Datenannotation SAM .
Visuelle Eingabeaufforderungen sind eine neue Technik in der Bildverarbeitung, bei der Benutzer räumliche oder visuelle Hinweise – wie Punkte, Begrenzungsrahmen oder Kritzeleien – bereitstellen, um den Fokus eines KI-Modells auf bestimmte Objekte oder Bereiche innerhalb eines Bildes zu lenken. Im Gegensatz zum herkömmlichen Prompt Engineering, das sich hauptsächlich auf Textbeschreibungen stützt, ermöglicht die visuelle Eingabeaufforderung eine präzisere und intuitivere Interaktion mit Systemen der künstlichen Intelligenz (KI). Diese Methode nutzt die Fähigkeiten moderner Grundlagenmodelle, um Aufgaben wie Segmentierung und Erkennung auszuführen, ohne dass umfangreiche Nachschulungen oder große beschriftete Datensätze erforderlich sind. Durch effektives „Zeigen” auf das Wesentliche können Benutzer Allzweckmodelle sofort an neue Aufgaben anpassen und so die Lücke zwischen menschlicher Absicht und maschineller Wahrnehmung schließen.
Im Kern funktioniert visuelles Prompting, indem räumliche Informationen direkt in die Verarbeitungs-Pipeline des Modells eingespeist werden. Wenn ein Benutzer auf ein Objekt klickt oder ein Feld zeichnet, werden diese Eingaben in koordinatenbasierte Einbettungen umgewandelt, die das neuronale Netzwerk mit den Bildmerkmalen integriert. Dieser Prozess ist von zentraler Bedeutung für interaktive Architekturen wie das Segment Anything Model (SAM), bei dem das Modell Masken auf der Grundlage geometrischer Eingaben vorhersagt.
Die Flexibilität der visuellen Aufforderung ermöglicht verschiedene Interaktionstypen:
Jüngste Forschungsergebnisse, die auf der CVPR 2024 vorgestellt wurden, zeigen, wie visuelle Eingabeaufforderungen den Zeitaufwand für die Datenannotation erheblich reduzieren, da menschliche Annotatoren Modellvorhersagen in Echtzeit mit einfachen Klicks korrigieren können, anstatt Polygone manuell nachzuzeichnen.
Obwohl beide Techniken darauf abzielen, das Verhalten des Modells zu steuern, ist es wichtig, zwischen visuellen Eingaben und textbasierten Methoden zu unterscheiden. Die Text-zu-Bild-Generierung oder Zero-Shot-Erkennung stützt sich auf natürliche Sprachverarbeitung (NLP) , um semantische Beschreibungen (z. B. „finde das rote Auto“) zu interpretieren. Sprache kann jedoch mehrdeutig oder unzureichend sein, um präzise räumliche Positionen oder abstrakte Formen zu beschreiben.
Visuelle Eingabeaufforderungen lösen diese Mehrdeutigkeit, indem sie die Anweisung im Pixelraum selbst verankern. Bei der medizinischen Bildanalyse ist es beispielsweise weitaus genauer, wenn ein Radiologe auf einen verdächtigen Knoten klickt, als wenn er versucht, dessen genaue Koordinaten und unregelmäßige Form in Textform zu beschreiben. Oft kombinieren die leistungsfähigsten Arbeitsabläufe beide Ansätze – die Verwendung von Text für die semantische Filterung und visuelle Eingabeaufforderungen für räumliche Präzision – ein Konzept, das als multimodales Lernen
Die Anpassungsfähigkeit visueller Aufforderungen hat zu ihrer raschen Verbreitung in verschiedenen Branchen geführt:
Das Ultralytics unterstützt visuelle Prompting-Workflows, insbesondere durch Modelle wie FastSAM SAM. Diese Modelle ermöglichen es Entwicklern, Punkt- oder Box-Koordinaten programmgesteuert zu übergeben, um Segmentierungsmasken abzurufen.
Das folgende Beispiel zeigt, wie man die ultralytics Paket zum Anwenden einer Punktabfrage auf ein
Bild, wodurch das Modell angewiesen wird, segment Objekt an bestimmten Koordinaten zu segment .
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
Visuelle Aufforderungen stellen eine Verlagerung hin zu einer „aufforderbaren“ Computervision dar, bei der Modelle nicht mehr statische „Black Boxes“, sondern interaktive Werkzeuge sind. Diese Fähigkeit ist für aktive Lernschleifen unerlässlich, bei denen Modelle durch die Einbeziehung von Nutzer-Feedback schnell verbessert werden .
Für Entwickler, die diese Funktionen in die Produktion integrieren möchten, bietet Ultralytics Tools zur Verwaltung von Datensätzen und zur Bereitstellung von Modellen , die dynamische Eingaben verarbeiten können. Im Zuge der weiteren Forschung erwarten wir eine noch engere Integration zwischen visuellen Eingabeaufforderungen und großen Sprachmodellen (LLMs), wodurch Systeme entstehen, die visuelle Eingaben mit derselben Leichtigkeit verarbeiten können, mit der sie derzeit Texte verarbeiten.