Erfahren Sie, wie Instanzsegmentierung die Objekterkennung auf Pixelebene ermöglicht. Entdecken Sie, wie Sie Ultralytics für die schnelle Maskerstellung in Echtzeit und vieles mehr nutzen können.
Instanzsegmentierung ist eine hochentwickelte Technik in der Computervision (CV), die jedes einzelne Objekt von Interesse innerhalb eines Bildes auf Pixelebene identifiziert und abgrenzt. Während die Standard-Objekterkennung Objekte mithilfe rechteckiger Begrenzungsrahmen lokalisiert, geht die Instanzsegmentierung noch einen Schritt weiter, indem sie für jedes erkannte Objekt eine präzise Maske generiert. Diese Fähigkeit ermöglicht es Modellen der künstlichen Intelligenz (KI), zwischen einzelnen Objekten derselben Klasse zu unterscheiden – beispielsweise zwei sich überlappende Personen voneinander zu trennen – und bietet so ein reichhaltigeres und detaillierteres Verständnis der visuellen Szene im Vergleich zu einfacheren Klassifizierungsmethoden.
Um den Nutzen der Instanzsegmentierung vollständig zu erfassen, ist es hilfreich, sie von anderen verwandten Bildverarbeitungsaufgaben zu unterscheiden . Jede Methode bietet je nach Anwendungsanforderungen einen unterschiedlichen Detaillierungsgrad.
Moderne Instanzsegmentierungsmodelle basieren in der Regel auf fortschrittlichen Deep-Learning-Architekturen (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netzwerke extrahieren Merkmale aus einem Bild, um sowohl die Klasse eines Objekts als auch seine räumliche Kontur vorherzusagen. In der Vergangenheit waren zweistufige Architekturen wie Mask R-CNN der Standard, bei denen zunächst Regionen von Interesse vorgeschlagen und diese dann zu Masken verfeinert wurden.
Jüngste Fortschritte haben jedoch zu einstufigen Detektoren wie YOLO26 geführt, die Erkennung und Segmentierung gleichzeitig durchführen. Dieser „End-to-End”-Ansatz verbessert die Echtzeit-Inferenzgeschwindigkeit erheblich und ermöglicht es, hochpräzise Segmentierung auf Live-Videostreams auf Verbraucherhardware anzuwenden.
Die präzisen Grenzen, die durch die Instanzsegmentierung bereitgestellt werden, sind entscheidend für Branchen, in denen das Verständnis der genauen Form und Position eines Objekts für die Entscheidungsfindung notwendig ist.
Entwickler können die Instanzsegmentierung einfach mit der ultralytics Bibliothek. Das folgende
Beispiel zeigt, wie ein vortrainiertes Modell geladen wird. YOLO26 Modell
und Segmentierungsmasken für ein Bild generieren.
from ultralytics import YOLO
# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()
Die Instanzsegmentierung ist zwar leistungsstark, aber im Vergleich zur einfachen Bounding-Box-Erkennung rechenintensiv. Die Erstellung pixelgenauer Masken erfordert erhebliche GPU und präzise Datenannotationen. Die Annotation von Daten für diese Aufgaben umfasst das Zeichnen enger Polygone um jedes Objekt herum, was sehr zeitaufwendig sein kann.
Um diesen Prozess zu optimieren, verwenden Teams häufig Tools wie die Ultralytics , die Funktionen für die Verwaltung von Datensätzen, automatische Annotation und cloudbasiertes Training bietet. Auf diese Weise können Entwickler Modelle anhand benutzerdefinierter Daten – wie beispielsweise spezifischer Industriekomponenten oder biologischer Proben – feinabstimmen und sie mithilfe optim ierter Formate wie ONNX oder TensorRT.