Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Was ist Instanzsegmentierung? Eine Kurzanleitung

Abirami Vina

6 Minuten Lesezeit

6. März 2025

Begleiten Sie uns, während wir uns genauer ansehen, was Instanzsegmentierung ist, wie sie funktioniert, wie sie in verschiedenen Anwendungen der Computer Vision eingesetzt wird und welche Auswirkungen sie haben kann.

Computer-Vision-Anwendungen werden in unserem täglichen Leben immer häufiger, von Verkehrskameras, die die Straßenverhältnisse überwachen, bis hin zu Self-Checkout-Systemen in Geschäften. Indem sie es Maschinen ermöglichen, visuelle Daten ähnlich wie Menschen zu verstehen, leistet Vision AI einen Beitrag in einer Reihe von Branchen.

Viele dieser Anwendungen basieren auf Objekterkennung, einer Computer-Vision-Aufgabe, die Begrenzungsrahmen um wichtige Objekte in Bildern platziert. Obwohl dieser Ansatz oft gut funktioniert, benötigen einige Bildanalyselösungen eine noch höhere Präzision.

Zum Beispiel erfordert die medizinische Bildgebung mehr als nur die Erkennung eines Tumors – es ist entscheidend, seine genaue Form zu umreißen. In ähnlicher Weise müssen Maschinen in der Robotik die genauen Konturen eines Objekts erkennen, um es richtig zu greifen. Um diese Herausforderungen zu bewältigen, bietet die Instanzsegmentierung eine präzisere Lösung.

Die Instanzsegmentierung ist eine Computer-Vision-Aufgabe, die Anwendungsfälle unterstützt, in denen die Erkennung von Objekten nicht ausreicht – sie bietet Genauigkeit auf Pixelebene. Computer-Vision-Modelle wie Ultralytics YOLO11 können verwendet werden, um die Instanzsegmentierung einfach auf Bilder und Videos anzuwenden. 

__wf_reserved_inherit
Abb. 1. Beispiel für die Verwendung von YOLO11 zur Instanzsegmentierung.

In diesem Leitfaden werden wir aufschlüsseln, wie die Instanzsegmentierung funktioniert, welche Anwendungen sie hat und wie Ultralytics YOLO11 für bestimmte Segmentierungsaufgaben benutzerdefiniert trainiert werden kann.

Was ist Instanzsegmentierung?

Nehmen wir an, es gibt ein Gruppenfoto von Personen, die eng beieinander stehen. Die Objekterkennung kann helfen, Kästchen um jede Person zu zeichnen, aber das sagt Ihnen nicht ihre genaue Form. 

Instanzsegmentierung hingegen ist vergleichbar mit dem sorgfältigen Nachzeichnen jeder Person, sodass Sie ihre vollständige Kontur sehen können, selbst wenn sie sich überschneiden. Anstatt nur mit einem Kästchen zu markieren, wo sich etwas befindet, identifiziert sie die genaue Form jedes Objekts auf Pixelebene, was es einfacher macht, komplexe Bilder zu verstehen.

Das Ergebnis ist eine detaillierte Maske, die die Form eines Objekts ausfüllt und genau festlegt, welche Pixel zu ihm gehören. Dieses Maß an Präzision ist in vielen realen Anwendungen nützlich, in denen es wichtig ist, die genaue Form und die Grenzen von Objekten zu verstehen.

__wf_reserved_inherit
Abb. 2. Demonstration der Unterstützung von YOLO11 für die Instanzsegmentierung.

Instanzsegmentierung vs. semantische Segmentierung

Beim Erkunden der Instanzsegmentierung stößt man möglicherweise auf das Konzept der semantischen Segmentierung.

Beide Techniken helfen Computern, Bilder auf Pixelebene zu verstehen, dienen aber unterschiedlichen Zwecken. Die semantische Segmentierung kennzeichnet jedes Pixel anhand seiner Kategorie und gruppiert alle Objekte desselben Typs zusammen. In einem Bild mit mehreren Autos würde die semantische Segmentierung beispielsweise alle als "Auto" markieren, ohne zwischen einzelnen Fahrzeugen zu unterscheiden.

Die Instanzsegmentierung geht hingegen noch einen Schritt weiter, indem sie jedes Objekt separat identifiziert. Sie weist einzelnen Instanzen eindeutige Bezeichnungen zu und erstellt präzise Masken um ihre Formen. Im selben Bild würde die Instanzsegmentierung also nicht nur alles als "Auto" bezeichnen, sondern jedes Auto einzeln erkennen und umreißen.

Der Hauptunterschied zwischen den beiden besteht darin, dass die semantische Segmentierung Objekte nach Kategorie gruppiert, während die Instanzsegmentierung jedes Objekt als eine eindeutige Entität mit klaren Grenzen unterscheidet. Die Wahl der zu verwendenden Aufgabe hängt von der jeweiligen Anwendung ab - ob es ausreicht zu wissen, was sich in einem Bild befindet, oder ob es wichtig ist, zwischen einzelnen Objekten zu unterscheiden.

__wf_reserved_inherit
Abb. 3. Instanzsegmentierung vs. semantische Segmentierung (rechts bzw. links).

Beliebte Modelle für die Instanzsegmentierung

Heutzutage stehen der Vision-AI-Community verschiedene Modelle für die Instanzsegmentierung zur Verfügung. Einige sind schneller, andere genauer und wieder andere einfacher zu bedienen. 

Diese Optionen sind zwar nützlich, können aber zu der Frage führen, welches Modell für eine bestimmte Aufgabe das richtige ist. Unter den Optionen sind die Ultralytics YOLO-Modelle sehr beliebt, weil sie sich auf Geschwindigkeit und Genauigkeit konzentrieren. 

Außerdem haben sich diese Modelle im Laufe der Jahre erheblich weiterentwickelt. Zum Beispiel vereinfachte Ultralytics YOLOv5 die Bereitstellung mithilfe von Frameworks wie PyTorch, wodurch fortschrittliche Vision AI einem breiteren Publikum zugänglich gemacht wurde, ohne dass tiefgreifendes technisches Fachwissen erforderlich ist.

Aufbauend auf diesem Erfolg führte Ultralytics YOLOv8 eine verbesserte Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung, Pose-Schätzung und Bildklassifizierung ein. 

Jetzt hebt YOLO11 die Leistung auf ein neues Niveau. Es erreicht eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m, was bedeutet, dass es Objekte präziser erkennen kann und gleichzeitig weniger Ressourcen verbraucht.

__wf_reserved_inherit
Abb. 4. Benchmarking von YOLO11.

Einfach ausgedrückt liefert YOLO11 modernste Genauigkeit ohne Kompromisse bei der Effizienz, was es zu einem Game-Changer in diesem Bereich macht.

Funktionsweise der Instanzsegmentierung verstehen

Als Nächstes wollen wir untersuchen, wie die Instanzsegmentierung typischerweise funktioniert. Ältere Computer-Vision-Modelle verwenden einen zweistufigen Ansatz. 

Zuerst erkennen sie Objekte, indem sie Begrenzungsrahmen um sie herum zeichnen. Dann erzeugen sie eine Maske auf Pixelebene, um die genaue Form jedes Objekts zu umreißen. Ein bekanntes Beispiel ist Mask R-CNN, das auf Objekterkennungsmodellen aufbaut, indem es einen Maskenvorhersageschritt hinzufügt. Diese Methode ist zwar effektiv, kann aber langsam sein, da sie das Bild in mehreren Phasen verarbeitet, was Echtzeitanwendungen erschwert.

Modelle wie YOLO11 verarbeiten Bilder hingegen in einem Durchgang und sagen gleichzeitig Objektbegrenzungsrahmen und Instanzsegmentierungsmasken vorher. Dieser optimierte Ansatz macht es viel schneller und behält gleichzeitig eine hohe Genauigkeit bei. Dadurch ist es besonders nützlich für Echtzeitanwendungen wie autonomes Fahren, Videoanalyse und Robotik, wo sowohl Geschwindigkeit als auch Präzision entscheidend sind.

Benutzerdefiniertes Training von YOLO11 für die Instanzsegmentierung

YOLO11 wird standardmäßig als vortrainiertes Modell geliefert. Es wurde auf dem COCO-Seg-Datensatz trainiert, der Alltagsgegenstände für die Instanzsegmentierung abdeckt. Das Ultralytics Python-Paket unterstützt jedoch benutzerdefiniertes Training, was für spezielle Anwendungen unerlässlich ist, bei denen eindeutige Objekte segmentiert werden müssen.

Warum ist benutzerdefiniertes Training oder Feinabstimmung eines Modells wichtig? Benutzerdefiniertes Training nutzt Transfer Learning, indem es auf dem Wissen aufbaut, das bereits in vortrainierten Modellen enthalten ist. Anstatt von Grund auf neu zu beginnen, passt es ein bestehendes Modell mit kleineren Datensätzen und weniger Rechenressourcen an neue Aufgaben an, und das alles bei gleichbleibend hoher Genauigkeit.

Wie man YOLO11 benutzerdefiniert trainiert

Hier ist ein genauerer Blick auf die Schritte, die bei der Feinabstimmung von YOLO11 für die Instanzsegmentierung erforderlich sind: 

  • Datenvorbereitung: Sammeln und annotieren Sie Bilder basierend auf Ihrer spezifischen Anwendung. Ultralytics bietet Unterstützung für mehrere Bilddatensätze, aber Sie können auch mit Ihrem eigenen Datensatz trainieren, indem Sie Bilder und Anmerkungen im erforderlichen YOLO-Format vorbereiten.
  • Verwendung eines vortrainierten Modells: Verwenden Sie anstelle eines Modells, das von Grund auf neu erstellt wurde, ein vortrainiertes Ultralytics YOLO11-Modell. 
  • Modelltraining: Passen Sie wichtige Trainingseinstellungen wie Batch-Größe (pro Iteration verarbeitete Bilder), Bildgröße (Ziel-Eingabeauflösung) und Epochen (gesamte Trainingszyklen) an und trainieren Sie das Modell. 
  • Leistungsbewertung: Nach Abschluss des Modelltrainings können Sie die Genauigkeit des Modells mithilfe von Leistungskennzahlen wie mAP testen. Das Ultralytics Python-Paket bietet auch integrierte Funktionen zur Modellevaluierung.

Anwendungsbereiche der Instanzsegmentierung, ermöglicht durch YOLO11

Instanzsegmentierung kann zur Lösung realer Herausforderungen eingesetzt werden, indem sie Maschinen hilft, Objekte genauer zu sehen und zu verstehen. Von der Verbesserung der Automatisierung bis zum Schutz der Umwelt spielt sie in vielen Bereichen eine Schlüsselrolle. Lassen Sie uns einige Beispiele dafür durchgehen, wo sie Wirkung zeigt.

Sicherheit und Überwachung auf Baustellen mit YOLO11

Die Instanzsegmentierung kann ein entscheidender Faktor für die Gewährleistung von Sicherheit und Effizienz auf Baustellen sein. Sie kann beispielsweise zur Überwachung schwerer Maschinen eingesetzt werden. 

YOLO11 kann feinabgestimmt werden, um verschiedene Arten von Geräten, wie z. B. Kräne, Bagger und Bulldozer, genau zu segmentieren und zu identifizieren und ihre Positionen in Echtzeit zu verfolgen. Dies ermöglicht es Baustellenleitern, sicherzustellen, dass Maschinen ausschließlich in den dafür vorgesehenen Bereichen betrieben werden und nicht in Zonen eindringen, in denen sich Arbeiter aufhalten oder Gefahren bestehen. 

Darüber hinaus ermöglicht die Integration solcher Lösungen in Echtzeit-Alarmsysteme die Einleitung schneller Korrekturmaßnahmen. Abgesehen davon können die gewonnenen Erkenntnisse zur Optimierung des Baustellenlayouts und des Arbeitsablaufs beitragen, wodurch Risiken weiter reduziert und die Produktivität gesteigert werden.

__wf_reserved_inherit
Abb. 5. Überwachung schwerer Maschinen mit YOLO11.

Tierüberwachung mit Segmentierung und YOLO11

Die Überwachung des Tierverhaltens hilft Forschern, Landwirten und Naturschützern, sich besser um Tiere in verschiedenen Umgebungen zu kümmern. Die Instanzsegmentierung spielt in diesen Systemen eine hilfreiche Rolle, indem sie einzelne Tiere in landwirtschaftlichen Betrieben, Zoos und natürlichen Lebensräumen identifiziert und segmentiert. Im Gegensatz zur traditionellen Objekterkennung, die Begrenzungsrahmen verwendet, bietet die Instanzsegmentierung eine pixelgenaue Abgrenzung jedes Tieres, was besonders nützlich ist, wenn sich Tiere in unmittelbarer Nähe befinden.

Die detaillierte Segmentierung ermöglicht eine genauere Verfolgung von Bewegungen und Verhaltensweisen. Sich überlappende oder eng beieinander liegende Tiere können eindeutig erkannt werden, was eine präzisere Analyse von Interaktionen, Gesundheitsbewertungen und Aktivitätsmustern ermöglicht. Insgesamt verbessern tiefere Einblicke in das Tierverhalten die Tierpflege- und Managementpraktiken.

__wf_reserved_inherit
Abb. 6. Überwachung von Rindern mit Instanzsegmentierung.

YOLO11 in der Sportanalyse und Spieler-Tracking

Die präzise Verfolgung von Spielern und Ereignissen ist ein wichtiger Bestandteil der Sportanalyse. Traditionelle Tracking-Methoden basieren auf manueller Kennzeichnung, die möglicherweise nicht alle detaillierten Interaktionen erfasst. Computer Vision kann verwendet werden, um Details wie jeden Spieler, Ball und jedes wichtige Ereignis auf Pixelebene zu segmentieren, um detaillierte Einblicke zu erhalten.

Die Instanzsegmentierung kann beispielsweise helfen, Ereignisse wie Fouls oder Vorfälle abseits des Balls zu erkennen, indem sie jeden Spieler und jedes Objekt klar trennt. Diese granulare Überwachung, die durch Modelle wie YOLO11 ermöglicht wird, bietet Analysten klarere Informationen, um Bewegungsmuster, räumliche Positionierung und Interaktionen mit hoher Genauigkeit zu untersuchen. Ein wesentlicher Vorteil dieser Erkenntnisse ist, dass sie Teams helfen, ihre Strategien zu verfeinern und die Gesamtleistung zu steigern.

Vor- und Nachteile der Instanzsegmentierung

Hier sind einige der wichtigsten Vorteile, die die Instanzsegmentierung für verschiedene Branchen mit sich bringen kann:

  • Verbesserte Automatisierung: Durch die Automatisierung von Aufgaben wie Qualitätskontrolle und Sicherheitsüberwachung reduziert die Instanzsegmentierung den Bedarf an manuellen Eingriffen und minimiert menschliche Fehler.
  • Besseres Szenenverständnis: Durch die genaue Umrandung jedes Objekts trägt die Instanzsegmentierung zu einem tieferen Verständnis komplexer Szenen bei und unterstützt fundiertere Entscheidungen.
  • Effiziente Nachbearbeitung: Die Ausgabe auf Pixelebene vereinfacht Aufgaben wie das Entfernen von Hintergründen, das Zählen von Objekten und die räumliche Analyse, wodurch der Bedarf an zusätzlichen Verarbeitungsschritten reduziert wird.

Während diese Vorteile verdeutlichen, wie sich die Instanzsegmentierung auf verschiedene Anwendungsfälle auswirkt, ist es auch wichtig, die Herausforderungen zu berücksichtigen, die mit ihrer Implementierung verbunden sind. 

Hier sind einige der wichtigsten Einschränkungen der Instanzsegmentierung:

  • Herausforderungen bei der Transparenz: Die Segmentierung transparenter oder reflektierender Objekte wie Glas und Wasser ist schwierig, was zu ungenauen Grenzen führt.
  • Wartungsaufwand: Um die Genauigkeit und Relevanz der Modelle zu erhalten, sind kontinuierliche Aktualisierungen und Feinabstimmungen erforderlich, da sich die Umgebungsbedingungen und Datensätze ändern.
  • Hoher Annotationsaufwand: Das Training von Instanzsegmentierungsmodellen erfordert detaillierte Annotationen auf Pixelebene, was den Zeit- und Kostenaufwand für die Datenvorbereitung erheblich erhöht.

Wesentliche Erkenntnisse

Instanzsegmentierung ermöglicht es, einzelne Objekte präzise zu unterscheiden, selbst wenn sie sich überlappen. Durch die Erfassung von Objektgrenzen auf Pixelebene bietet sie ein tieferes Verständnis visueller Daten im Vergleich zu traditionellen Computer-Vision-Aufgaben wie der Objekterkennung.

Jüngste Fortschritte im Bereich Computer Vision haben die Instanzsegmentierung schneller und einfacher gemacht. Insbesondere Computer-Vision-Modelle wie Ultralytics YOLO11 vereinfachen den Prozess und ermöglichen eine Echtzeit-Segmentierung mit minimalem Setup, wodurch sie für verschiedene Branchen und Anwendungen zugänglicher wird.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository und treten Sie mit unserer Community in Kontakt, um weiter zu forschen. Erfahren Sie mehr über Innovationen wie KI in selbstfahrenden Autos und Vision AI in der Landwirtschaft auf unseren Lösungsseiten. Sehen Sie sich unsere Lizenzoptionen an und starten Sie ein Computer-Vision-Projekt!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert