Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Visuelle Aufforderung

Entdecken Sie visuelle Eingabeaufforderungen, um KI-Modelle mit Punkten und Kästchen zu steuern. Erfahren Sie, wie Ultralytics YOLO SAM eine präzise Segmentierung und schnellere Datenannotation SAM .

Visuelle Eingabeaufforderungen sind eine neue Technik in der Bildverarbeitung, bei der Benutzer räumliche oder visuelle Hinweise – wie Punkte, Begrenzungsrahmen oder Kritzeleien – bereitstellen, um den Fokus eines KI-Modells auf bestimmte Objekte oder Bereiche innerhalb eines Bildes zu lenken. Im Gegensatz zum herkömmlichen Prompt Engineering, das sich hauptsächlich auf Textbeschreibungen stützt, ermöglicht die visuelle Eingabeaufforderung eine präzisere und intuitivere Interaktion mit Systemen der künstlichen Intelligenz (KI). Diese Methode nutzt die Fähigkeiten moderner Grundlagenmodelle, um Aufgaben wie Segmentierung und Erkennung auszuführen, ohne dass umfangreiche Nachschulungen oder große beschriftete Datensätze erforderlich sind. Durch effektives „Zeigen” auf das Wesentliche können Benutzer Allzweckmodelle sofort an neue Aufgaben anpassen und so die Lücke zwischen menschlicher Absicht und maschineller Wahrnehmung schließen.

Mechanismen der visuellen Aufforderung

Im Kern funktioniert visuelles Prompting, indem räumliche Informationen direkt in die Verarbeitungs-Pipeline des Modells eingespeist werden. Wenn ein Benutzer auf ein Objekt klickt oder ein Feld zeichnet, werden diese Eingaben in koordinatenbasierte Einbettungen umgewandelt, die das neuronale Netzwerk mit den Bildmerkmalen integriert. Dieser Prozess ist von zentraler Bedeutung für interaktive Architekturen wie das Segment Anything Model (SAM), bei dem das Modell Masken auf der Grundlage geometrischer Eingaben vorhersagt.

Die Flexibilität der visuellen Aufforderung ermöglicht verschiedene Interaktionstypen:

  • Punkt-Eingabeaufforderungen: Ein Benutzer klickt auf ein bestimmtes Pixel, um das gewünschte Objekt anzugeben. Das Modell erweitert diese Auswahl dann auf die gesamten Objektgrenzen.
  • Box-Eingabeaufforderungen: Das Zeichnen einer Begrenzungsbox ermöglicht eine grobe Lokalisierung und signalisiert dem Modell, classify innerhalb dieses Bereichs zu segment zu classify .
  • Scribble-Prompts: Freihändig über ein Objekt gezeichnete Linien können dazu beitragen, komplexe Szenen zu entschlüsseln, in denen Objekte sich überlappen oder ähnliche Texturen aufweisen.

Jüngste Forschungsergebnisse, die auf der CVPR 2024 vorgestellt wurden, zeigen, wie visuelle Eingabeaufforderungen den Zeitaufwand für die Datenannotation erheblich reduzieren, da menschliche Annotatoren Modellvorhersagen in Echtzeit mit einfachen Klicks korrigieren können, anstatt Polygone manuell nachzuzeichnen.

Visuelle Eingabeaufforderung vs. Text-Eingabeaufforderung

Obwohl beide Techniken darauf abzielen, das Verhalten des Modells zu steuern, ist es wichtig, zwischen visuellen Eingaben und textbasierten Methoden zu unterscheiden. Die Text-zu-Bild-Generierung oder Zero-Shot-Erkennung stützt sich auf natürliche Sprachverarbeitung (NLP) , um semantische Beschreibungen (z. B. „finde das rote Auto“) zu interpretieren. Sprache kann jedoch mehrdeutig oder unzureichend sein, um präzise räumliche Positionen oder abstrakte Formen zu beschreiben.

Visuelle Eingabeaufforderungen lösen diese Mehrdeutigkeit, indem sie die Anweisung im Pixelraum selbst verankern. Bei der medizinischen Bildanalyse ist es beispielsweise weitaus genauer, wenn ein Radiologe auf einen verdächtigen Knoten klickt, als wenn er versucht, dessen genaue Koordinaten und unregelmäßige Form in Textform zu beschreiben. Oft kombinieren die leistungsfähigsten Arbeitsabläufe beide Ansätze – die Verwendung von Text für die semantische Filterung und visuelle Eingabeaufforderungen für räumliche Präzision – ein Konzept, das als multimodales Lernen

Anwendungsfälle in der Praxis

Die Anpassungsfähigkeit visueller Aufforderungen hat zu ihrer raschen Verbreitung in verschiedenen Branchen geführt:

  • Interaktive medizinische Diagnostik: Ärzte verwenden visuelle Hilfsmittel, um Tumore oder Organe in MRT-Scans zu isolieren. Durch einfaches Anklicken eines Bereichs von Interesse können sie sofort volumetrische 3D-Messungen erstellen, was eine präzise Tumorerkennung und Operationsplanung ermöglicht.
  • Intelligente Bildbearbeitung: In Verbraucher-Software wie Adobe Photoshop oder mobilen Apps ermöglichen visuelle Eingabeaufforderungen „magische Auswahl“-Werkzeuge. Benutzer können auf eine Person oder ein Objekt tippen, um den Hintergrund zu entfernen oder gezielte Filter anzuwenden , wobei sie zugrunde liegende Instanzsegmentierungstechnologien nutzen, ohne manuelle Maskierungsfähigkeiten zu benötigen.
  • Robotermanipulation: In AI in Robotics können Roboter über eine visuelle Schnittstelle angewiesen werden, bestimmte Gegenstände aufzunehmen. Ein Bediener klickt auf ein Objekt im Bild der Roboterkamera und gibt damit eine visuelle Eingabe, die der Roboter in Greifkoordinaten umsetzt, was die Human-in-the-Loop-Automatisierung in Lagern erleichtert.

Implementierung mit Ultralytics

Das Ultralytics unterstützt visuelle Prompting-Workflows, insbesondere durch Modelle wie FastSAM SAM. Diese Modelle ermöglichen es Entwicklern, Punkt- oder Box-Koordinaten programmgesteuert zu übergeben, um Segmentierungsmasken abzurufen.

Das folgende Beispiel zeigt, wie man die ultralytics Paket zum Anwenden einer Punktabfrage auf ein Bild, wodurch das Modell angewiesen wird, segment Objekt an bestimmten Koordinaten zu segment .

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Förderung der Modellagilität

Visuelle Aufforderungen stellen eine Verlagerung hin zu einer „aufforderbaren“ Computervision dar, bei der Modelle nicht mehr statische „Black Boxes“, sondern interaktive Werkzeuge sind. Diese Fähigkeit ist für aktive Lernschleifen unerlässlich, bei denen Modelle durch die Einbeziehung von Nutzer-Feedback schnell verbessert werden .

Für Entwickler, die diese Funktionen in die Produktion integrieren möchten, bietet Ultralytics Tools zur Verwaltung von Datensätzen und zur Bereitstellung von Modellen , die dynamische Eingaben verarbeiten können. Im Zuge der weiteren Forschung erwarten wir eine noch engere Integration zwischen visuellen Eingabeaufforderungen und großen Sprachmodellen (LLMs), wodurch Systeme entstehen, die visuelle Eingaben mit derselben Leichtigkeit verarbeiten können, mit der sie derzeit Texte verarbeiten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten