Erfahren Sie, wie bei der interaktiven Segmentierung „Human-in-the-Loop“-Aufforderungen zum Isolieren von Objekten eingesetzt werden. Entdecken Sie, wie Sie Ultralytics und die Ultralytics für verschiedene Aufgaben nutzen können.
Die interaktive Segmentierung ist ein stark kollaborativer Ansatz im Bereich der Bildverarbeitung, bei dem ein menschlicher Nutzer kontinuierliche oder einmalige Eingaben – wie Klicks, Begrenzungsrahmen oder Textanweisungen – liefert, um ein KI-Modell dabei zu unterstützen, bestimmte Objekte innerhalb eines Bildes zu isolieren. Im Gegensatz zu vollautomatisierten Methoden ermöglicht diese „Human-in-the-Loop“-Technik den Benutzern, genau zu definieren, was segmentiert werden soll, was sie besonders wertvoll im Umgang mit mehrdeutigen visuellen Daten, sich überlappenden Objekten oder unbekannten Klassen macht. In den letzten Jahren hat die Einführung grundlegender Modelle die Geschwindigkeit und Genauigkeit dieses Prozesses drastisch verbessert und ihn zu einem unverzichtbaren Werkzeug für Datenannotation und Präzisionsbildgebung gemacht.
Im Kern basiert der Arbeitsablauf auf der promptgesteuerten Konzeptsegmentierung, bei der das Modell die Anweisungen des Benutzers interpretiert, um eine pixelgenaue Maske zu erzeugen. Ein Benutzer kann einen „positiven“ Klick auf das Vordergrundobjekt setzen, das er auswählen möchte, und einen „negativen“ Klick auf Hintergrundbereiche, die er ausschließen möchte. Fortgeschrittene Modelle wie das Segment Anything Model (SAM) und dessen Nachfolger, Meta SAM , gehen noch einen Schritt weiter, indem sie verschiedene Gestenarten [1], Begrenzungsrahmen und sogar Textbeschreibungen akzeptieren, um die visuelle Suche zu verfeinern. Das Modell berechnet anhand dieser Eingaben die optimale Begrenzung, und der Benutzer kann die Maske durch weitere Klicks schrittweise verfeinern, bis die gewünschte Genauigkeit erreicht ist.
Die interaktive Segmentierung verändert Arbeitsabläufe in zahlreichen Branchen, indem sie menschliches Fachwissen mit der Effizienz der KI verbindet.
Obwohl beide Konzepte die Trennung von Objekten auf Pixelebene beinhalten, dienen sie unterschiedlichen Anwendungszwecken. Die Instanzsegmentierung ist in der Regel ein vollständig automatisierter Prozess, bei dem ein Modell wie Ultralytics vordefinierte Klassen (z. B. „Auto“, „Person“, „Hund“) ohne Eingreifen des Benutzers erkennt und umrandet. Mehr darüber, wie dies funktioniert, erfahren Sie in unserem Leitfaden zur Instanzsegmentierung.
Im Gegensatz dazu stützt sich die interaktive Segmentierung nicht ausschließlich auf vordefinierte Klassen. Sie ist klassenunabhängig, d. h., sie segmentiert alles, worauf der Benutzer zeigt, und eignet sich daher hervorragend für aktive Lernpipelines, in denen neue Objekte schnell annotiert und mithilfe von Tools wie der Ultralytics zu benutzerdefinierten Datensätzen hinzugefügt werden müssen.
Sie können interaktive Segmentierung ganz einfach in Ihren eigenen Projekten umsetzen, indem Sie
PyTorch und die ultralytics Python . In diesem
Beispiel verwenden wir FastSAM um segment bestimmtes Objekt segment , indem
eine Eingabeaufforderung für einen Begrenzungsrahmen angezeigt wird.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Dieser Codeausschnitt zeigt, wie eine einfache räumliche Vorgabe das Modell direkt dazu anleitet, den gewünschten Bereich zu isolieren, wodurch komplexe Bildsegmentierungsaufgaben mit minimalem Codeaufwand optimiert werden.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens