Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Instanzsegmentierung

Erfahren Sie, wie Instanzsegmentierung die Objekterkennung auf Pixelebene ermöglicht. Entdecken Sie, wie Sie Ultralytics für die schnelle Maskerstellung in Echtzeit und vieles mehr nutzen können.

Instanzsegmentierung ist eine hochentwickelte Technik in der Computervision (CV), die jedes einzelne Objekt von Interesse innerhalb eines Bildes auf Pixelebene identifiziert und abgrenzt. Während die Standard-Objekterkennung Objekte mithilfe rechteckiger Begrenzungsrahmen lokalisiert, geht die Instanzsegmentierung noch einen Schritt weiter, indem sie für jedes erkannte Objekt eine präzise Maske generiert. Diese Fähigkeit ermöglicht es Modellen der künstlichen Intelligenz (KI), zwischen einzelnen Objekten derselben Klasse zu unterscheiden – beispielsweise zwei sich überlappende Personen voneinander zu trennen – und bietet so ein reichhaltigeres und detaillierteres Verständnis der visuellen Szene im Vergleich zu einfacheren Klassifizierungsmethoden.

Unterscheidung von Segmentierungstypen

Um den Nutzen der Instanzsegmentierung vollständig zu erfassen, ist es hilfreich, sie von anderen verwandten Bildverarbeitungsaufgaben zu unterscheiden . Jede Methode bietet je nach Anwendungsanforderungen einen unterschiedlichen Detaillierungsgrad.

  • Semantische Segmentierung: Bei diesem Ansatz wird jedes Pixel in einem Bild einer Kategorie zugeordnet (z. B. „Straße“, „Himmel“, „Auto“). Es wird jedoch nicht zwischen einzelnen Objekten derselben Kategorie unterschieden. Wenn drei Autos nebeneinander geparkt sind, werden sie bei der semantischen Segmentierung als ein einziger „Auto“-Bereich betrachtet.
  • Instanzsegmentierung: Bei dieser Methode wird jedes Objekt als eigenständige Einheit behandelt. Es werden einzelne Instanzen erkannt und den Pixeln jeder Instanz eine eindeutige Kennzeichnung zugewiesen . Im Beispiel der geparkten Autos würde die Instanzsegmentierung drei verschiedene Masken erstellen, die „Auto A“, „Auto B“ und „Auto C“ separat kennzeichnen.
  • Panoptische Segmentierung: Ein hybrider Ansatz, der die Hintergrundkennzeichnung der semantischen Segmentierung mit der Identifizierung zählbarer Objekte der Instanzsegmentierung kombiniert.

Die Mechanismen der Analyse auf Pixelebene

Moderne Instanzsegmentierungsmodelle basieren in der Regel auf fortschrittlichen Deep-Learning-Architekturen (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netzwerke extrahieren Merkmale aus einem Bild, um sowohl die Klasse eines Objekts als auch seine räumliche Kontur vorherzusagen. In der Vergangenheit waren zweistufige Architekturen wie Mask R-CNN der Standard, bei denen zunächst Regionen von Interesse vorgeschlagen und diese dann zu Masken verfeinert wurden.

Jüngste Fortschritte haben jedoch zu einstufigen Detektoren wie YOLO26 geführt, die Erkennung und Segmentierung gleichzeitig durchführen. Dieser „End-to-End”-Ansatz verbessert die Echtzeit-Inferenzgeschwindigkeit erheblich und ermöglicht es, hochpräzise Segmentierung auf Live-Videostreams auf Verbraucherhardware anzuwenden.

Anwendungsfälle in der Praxis

Die präzisen Grenzen, die durch die Instanzsegmentierung bereitgestellt werden, sind entscheidend für Branchen, in denen das Verständnis der genauen Form und Position eines Objekts für die Entscheidungsfindung notwendig ist.

  • KI im Gesundheitswesen: In der medizinischen Diagnostik ist es von entscheidender Bedeutung, die genaue Größe und Form von Tumoren oder Läsionen zu bestimmen. Durch Instanzsegmentierung können Modelle Anomalien in MRT-Scans mit hoher Präzision darstellen und Radiologen so bei der Behandlungsplanung und Überwachung des Krankheitsverlaufs unterstützen.
  • Autonome Fahrzeuge: Selbstfahrende Autos sind auf Segmentierung angewiesen, um sich in komplexen Umgebungen zurechtzufinden. Mithilfe von Datensätzen wie Cityscapes können Fahrzeuge befahrbare Oberflächen identifizieren, Fahrbahnmarkierungen erkennen und einzelne Fußgänger an überfüllten Kreuzungen voneinander unterscheiden, um die Sicherheit zu gewährleisten.
  • KI in der Landwirtschaft: Präzisionslandwirtschaft nutzt Segmentierung, um den Gesundheitszustand von Pflanzen zu überwachen. Mit Bildverarbeitungssystemen ausgestattete Roboter können einzelne Früchte identifizieren und automatisch ernten oder detect Unkräuter detect , um gezielt Herbizide einzusetzen, wodurch der Chemikalienverbrauch reduziert und der Ertrag optimiert wird.

Segmentierung mit Python implementieren

Entwickler können die Instanzsegmentierung einfach mit der ultralytics Bibliothek. Das folgende Beispiel zeigt, wie ein vortrainiertes Modell geladen wird. YOLO26 Modell und Segmentierungsmasken für ein Bild generieren.

from ultralytics import YOLO

# Load a pre-trained YOLO26 instance segmentation model
# The 'n' suffix denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
# This predicts classes, bounding boxes, and masks
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# Displays the image with overlaid segmentation masks
results[0].show()

Herausforderungen und Modelltraining

Die Instanzsegmentierung ist zwar leistungsstark, aber im Vergleich zur einfachen Bounding-Box-Erkennung rechenintensiv. Die Erstellung pixelgenauer Masken erfordert erhebliche GPU und präzise Datenannotationen. Die Annotation von Daten für diese Aufgaben umfasst das Zeichnen enger Polygone um jedes Objekt herum, was sehr zeitaufwendig sein kann.

Um diesen Prozess zu optimieren, verwenden Teams häufig Tools wie die Ultralytics , die Funktionen für die Verwaltung von Datensätzen, automatische Annotation und cloudbasiertes Training bietet. Auf diese Weise können Entwickler Modelle anhand benutzerdefinierter Daten – wie beispielsweise spezifischer Industriekomponenten oder biologischer Proben – feinabstimmen und sie mithilfe optim ierter Formate wie ONNX oder TensorRT.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten