Was ist Instanzsegmentierung? Ein kurzer Leitfaden

Abirami Vina

6 Minuten lesen

6. März 2025

Sehen Sie sich mit uns an, was Instanzsegmentierung ist, wie sie funktioniert, wie sie in verschiedenen Computer-Vision-Anwendungen eingesetzt wird und welche Auswirkungen sie haben kann.

Bildverarbeitungsanwendungen werden in unserem Alltag immer häufiger eingesetzt, von Verkehrskameras, die den Straßenzustand überwachen, bis hin zu Selbstbedienungs-Kassensystemen in Geschäften. Indem sie Maschinen in die Lage versetzt, visuelle Daten auf ähnliche Weise wie Menschen zu verstehen, wirkt sich Vision AI in einer Reihe von Branchen aus.

Viele dieser Anwendungen beruhen auf der Objekterkennung, einer Bildverarbeitungsaufgabe, bei der Begrenzungsrahmen um wichtige Objekte in Bildern platziert werden. Während dieser Ansatz oft gut funktioniert, benötigen einige Bildanalyselösungen eine noch höhere Präzision.

Bei der medizinischen Bildgebung beispielsweise geht es nicht nur darum, einen Tumor zu erkennen, sondern auch seine genaue Form zu beschreiben. Auch in der Robotik müssen Maschinen die genauen Konturen eines Objekts erkennen, um es richtig zu erfassen. Um diese Herausforderungen zu bewältigen, bietet die Instanzsegmentierung eine präzisere Lösung.

Die Instanzsegmentierung ist eine Bildverarbeitungsaufgabe, die für Anwendungsfälle entwickelt wurde, in denen die Erkennung von Objekten nicht ausreicht - sie bietet Genauigkeit auf Pixelebene. Computer-Vision-Modelle wie Ultralytics YOLO11 können zur einfachen Segmentierung von Instanzen in Bildern und Videos verwendet werden. 

__wf_reserved_inherit
Abb. 1. Beispiel für die Verwendung von YOLO11 zur Segmentierung von Instanzen.

In diesem Leitfaden erläutern wir, wie die Instanzsegmentierung funktioniert, welche Anwendungen es gibt und wie Ultralytics YOLO11 für bestimmte Segmentierungsaufgaben individuell trainiert werden kann.

Was bedeutet Instanzensegmentierung?

Nehmen wir an, es gibt ein Gruppenfoto mit eng beieinander stehenden Personen. Mithilfe der Objekterkennung können Sie Rahmen um die einzelnen Personen ziehen, aber das sagt nichts über ihre genaue Form aus. 

Die Segmentierung von Instanzen hingegen ist vergleichbar mit dem sorgfältigen Nachzeichnen der Umrisse jeder Person, so dass man ihren gesamten Umriss erkennen kann, auch wenn sie sich überschneiden. Anstatt nur mit einem Kästchen zu markieren, wo sich etwas befindet, wird die genaue Form jedes Objekts auf Pixelebene identifiziert, was das Verständnis komplexer Bilder erleichtert.

Das Ergebnis ist eine detaillierte Maske, die die Form eines Objekts ausfüllt und genau angibt, welche Pixel zu diesem Objekt gehören. Dieses Maß an Präzision ist in vielen realen Anwendungen nützlich, bei denen es wichtig ist, die genaue Form und die Grenzen von Objekten zu kennen.

__wf_reserved_inherit
Abb. 2. Zeigt die Unterstützung von YOLO11 für die Segmentierung von Instanzen.

Instanzsegmentierung vs. semantische Segmentierung

Bei der Untersuchung der Instanzsegmentierung stoßen Sie vielleicht auf das Konzept der semantischen Segmentierung.

Beide Techniken helfen Computern, Bilder auf Pixelebene zu verstehen, aber sie dienen unterschiedlichen Zwecken. Bei der semantischen Segmentierung wird jedes Pixel auf der Grundlage seiner Kategorie gekennzeichnet, wobei alle Objekte desselben Typs zusammengefasst werden. In einem Bild mit mehreren Autos würde die semantische Segmentierung zum Beispiel alle als "Auto" kennzeichnen, ohne zwischen den einzelnen Fahrzeugen zu unterscheiden.

Die Instanzsegmentierung hingegen geht einen Schritt weiter, indem sie jedes Objekt einzeln identifiziert. Sie weist den einzelnen Instanzen eindeutige Bezeichnungen zu und erstellt präzise Masken um ihre Formen. Im gleichen Bild würde die Instanzsegmentierung also nicht einfach alles als "Auto" bezeichnen, sondern jedes Auto einzeln erkennen und umreißen.

Der Hauptunterschied zwischen den beiden besteht darin, dass bei der semantischen Segmentierung Objekte nach Kategorien gruppiert werden, während bei der Instanzsegmentierung jedes Objekt als einzigartige Einheit mit klaren Grenzen unterschieden wird. Die Wahl der richtigen Aufgabe hängt von der jeweiligen Anwendung ab - ob es ausreicht, zu wissen, was sich in einem Bild befindet, oder ob es wichtig ist, zwischen einzelnen Objekten zu unterscheiden.

__wf_reserved_inherit
Abb. 3. Instanzsegmentierung vs. semantische Segmentierung (rechts bzw. links).

Beliebte Instanzsegmentierungsmodelle

Der Vision-KI-Gemeinschaft stehen heute verschiedene Instanzsegmentierungsmodelle zur Verfügung. Einige sind schneller, andere genauer und wieder andere einfacher zu verwenden. 

Diese Optionen sind zwar nützlich, können aber auch zu der Frage führen, welche die richtige für eine bestimmte Aufgabe ist. Unter den Optionen sind die YOLO-Modelle von Ultralytics recht beliebt, da sie sich auf Geschwindigkeit und Genauigkeit konzentrieren. 

Außerdem haben sich diese Modelle im Laufe der Jahre erheblich weiterentwickelt. Ultralytics YOLOv5 beispielsweise vereinfachte die Bereitstellung mithilfe von Frameworks wie PyTorch und machte fortschrittliche Vision AI für ein breiteres Publikum zugänglich, ohne dass tiefgreifende technische Kenntnisse erforderlich waren.

Aufbauend auf diesem Erfolg bietet Ultralytics YOLOv8 eine erweiterte Unterstützung für Computer-Vision-Aufgaben wie Instanzsegmentierung, Posenschätzung und Bildklassifizierung. 

Jetzt hebt YOLO11 die Leistung auf ein neues Niveau. Es erreicht eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m, was bedeutet, dass es Objekte präziser erkennen kann, während es weniger Ressourcen benötigt.

__wf_reserved_inherit
Abb. 4. Benchmarking YOLO11.

Einfach ausgedrückt: YOLO11 bietet modernste Genauigkeit ohne Kompromisse bei der Effizienz und ist damit ein entscheidender Faktor für den Einsatz in der Praxis.

Verstehen, wie die Instanzsegmentierung funktioniert

Als Nächstes wollen wir uns ansehen, wie die Segmentierung von Instanzen normalerweise funktioniert. Ältere Computer-Vision-Modelle verwenden einen zweistufigen Ansatz. 

Zunächst erkennen sie Objekte, indem sie Bounding Boxes um sie herum zeichnen. Dann erzeugen sie eine Maske auf Pixelebene, um die genaue Form jedes Objekts zu umreißen. Ein bekanntes Beispiel ist Mask R-CNN, das auf Objekterkennungsmodellen aufbaut, indem es einen Maskenvorhersageschritt hinzufügt. Diese Methode ist zwar effektiv, kann aber langsam sein, da sie das Bild in mehreren Schritten verarbeitet, was Echtzeitanwendungen erschwert.

In der Zwischenzeit verarbeiten Modelle wie YOLO11 Bilder in einem Durchgang und sagen gleichzeitig Objektbegrenzungsrahmen und Instanzsegmentierungsmasken voraus. Dieser rationalisierte Ansatz macht sie viel schneller, während die hohe Genauigkeit erhalten bleibt. Daher ist es besonders nützlich für Echtzeitanwendungen wie autonomes Fahren, Videoanalyse und Robotik, bei denen sowohl Geschwindigkeit als auch Präzision entscheidend sind.

Benutzerdefiniertes Training YOLO11 für die Segmentierung von Instanzen

YOLO11 wird als vortrainiertes Modell ausgeliefert. Es wurde mit dem COCO-Seg-Datensatz trainiert, der Alltagsobjekte für die Segmentierung von Beispielen abdeckt. Das Ultralytics Python-Paket unterstützt jedoch benutzerdefiniertes Training, das für spezielle Anwendungen, bei denen einzigartige Objekte segmentiert werden müssen, unerlässlich ist.

Warum ist benutzerdefiniertes Training oder die Feinabstimmung eines Modells wichtig? Benutzerdefiniertes Training nutzt das Transfer-Lernen, indem es auf dem Wissen aufbaut, das bereits in vortrainierten Modellen enthalten ist. Anstatt bei Null anzufangen, wird ein bestehendes Modell an neue Aufgaben angepasst, wobei kleinere Datensätze und weniger Rechenressourcen verwendet werden und gleichzeitig eine hohe Genauigkeit beibehalten wird.

Wie man YOLO11 individuell trainiert

Hier ein genauerer Blick auf die Schritte, die zur Feinabstimmung von YOLO11 für die Segmentierung erforderlich sind: 

  • Datenvorbereitung: Sammeln und beschriften Sie Bilder auf der Grundlage Ihrer spezifischen Anwendung. Ultralytics bietet Unterstützung für mehrere Bilddatensätze, aber Sie können auch mit Ihrem eigenen Datensatz trainieren, indem Sie Bilder und Anmerkungen im erforderlichen YOLO-Format vorbereiten.
  • Verwendung eines vortrainierten Modells: Anstatt bei Null anzufangen, verwenden Sie ein bereits trainiertes Ultralytics YOLO11-Modell.
  • Modell-Training: Passen Sie wichtige Trainingseinstellungen wie Stapelgröße (pro Iteration verarbeitete Bilder), Bildgröße (Zielauflösung) und Epochen (Gesamtzahl der Trainingszyklen) an und trainieren Sie das Modell.
  • Leistungsbewertung: Nach Abschluss der Modellschulung können Sie die Genauigkeit des Modells anhand von Leistungskennzahlen wie mAP testen. Das Ultralytics Python-Paket bietet auch integrierte Funktionen für die Modellbewertung.

Anwendungen zur Segmentierung von Instanzen, ermöglicht durch YOLO11

Die Instanzsegmentierung kann zur Lösung realer Probleme eingesetzt werden, indem sie Maschinen hilft, Objekte genauer zu erkennen und zu verstehen. Von der Verbesserung der Automatisierung bis zum Umweltschutz spielt sie in vielen Bereichen eine wichtige Rolle. Sehen wir uns einige Beispiele an, in denen sie zum Einsatz kommt.

Baustellensicherheit und -überwachung mit YOLO11

Die Segmentierung von Instanzen kann ein entscheidender Faktor für die Gewährleistung von Sicherheit und Effizienz auf Baustellen sein. Sie kann zum Beispiel zur Überwachung schwerer Maschinen eingesetzt werden. 

YOLO11 kann so eingestellt werden, dass verschiedene Gerätetypen wie Kräne, Bagger und Planierraupen genau segmentiert und identifiziert und ihre Positionen in Echtzeit verfolgt werden können. So können die Bauleiter sicherstellen, dass die Maschinen nur in den dafür vorgesehenen Bereichen arbeiten und nicht in Bereiche eindringen, in denen sich Arbeiter aufhalten oder Gefahren bestehen. 

Durch die Integration solcher Lösungen in Echtzeit-Warnsysteme können außerdem rasch Korrekturmaßnahmen ergriffen werden. Darüber hinaus können die gesammelten Erkenntnisse dazu beitragen, das Standortlayout und die Arbeitsabläufe zu optimieren, wodurch Risiken weiter verringert und die Produktivität gesteigert werden.

__wf_reserved_inherit
Abb. 5. Überwachung schwerer Maschinen mit YOLO11.

Tierüberwachung mit Segmentierung und YOLO11

Die Überwachung des Tierverhaltens hilft Forschern, Landwirten und Naturschützern, sich besser um die Tiere in verschiedenen Umgebungen zu kümmern. Die Instanzsegmentierung spielt in diesen Systemen eine hilfreiche Rolle, indem sie einzelne Tiere in Farmen, Zoos und natürlichen Lebensräumen identifiziert und segmentiert. Im Gegensatz zur herkömmlichen Objekterkennung, bei der Bounding Boxes verwendet werden, liefert die Instanzsegmentierung eine pixelgenaue Abgrenzung der einzelnen Tiere, was besonders nützlich ist, wenn sich die Tiere in unmittelbarer Nähe befinden.

Eine detaillierte Segmentierung ermöglicht eine genauere Verfolgung von Bewegungen und Verhaltensweisen. Sich überschneidende oder eng beieinander liegende Tiere können eindeutig erkannt werden und ermöglichen eine genauere Analyse von Interaktionen, Gesundheitsbewertungen und Aktivitätsmustern. Insgesamt verbessern tiefere Einblicke in das Tierverhalten die Tierpflege und die Managementpraktiken.

__wf_reserved_inherit
Abb. 6. Überwachung von Rindern mittels Instanzensegmentierung.

YOLO11 in der Sportanalytik und Spielerverfolgung

Die genaue Verfolgung von Spielern und Ereignissen ist ein wichtiger Bestandteil der Sportanalyse. Herkömmliche Verfolgungsmethoden beruhen auf der manuellen Markierung, die möglicherweise keine detaillierten Interaktionen erfasst. Mithilfe von Computer Vision können Details wie Spieler, Bälle und Schlüsselereignisse auf Pixelebene segmentiert werden, um detaillierte Einblicke zu erhalten.

Beispielsweise kann die Segmentierung von Instanzen helfen, Ereignisse wie Fouls oder Vorfälle außerhalb des Balls zu erkennen, indem die einzelnen Spieler und Objekte klar voneinander getrennt werden. Diese granulare Überwachung, die durch Modelle wie YOLO11 ermöglicht wird, bietet Analysten klarere Informationen, um Bewegungsmuster, räumliche Positionierung und Interaktionen mit hoher Genauigkeit zu untersuchen. Ein wesentlicher Vorteil dieser Erkenntnisse besteht darin, dass sie den Teams helfen, ihre Strategien zu verfeinern und die Gesamtleistung zu steigern.

Vor- und Nachteile der Instanzensegmentierung

Hier sind einige der wichtigsten Vorteile, die die Instanzsegmentierung für verschiedene Branchen mit sich bringen kann:

  • Verbesserte Automatisierung: Durch die Automatisierung von Aufgaben wie Qualitätskontrolle und Sicherheitsüberwachung reduziert die Instanzsegmentierung den Bedarf an manuellen Eingriffen und minimiert menschliche Fehler.
  • Besseres Verständnis der Szene: Indem jedes Objekt genau umrissen wird, trägt die Instanzsegmentierung zu einem tieferen Verständnis komplexer Szenen bei und unterstützt eine fundiertere Entscheidungsfindung.
  • Effiziente Nachbearbeitung: Die Ausgabe auf Pixelebene vereinfacht Aufgaben wie Hintergrundentfernung, Objektzählung und räumliche Analyse und reduziert den Bedarf an zusätzlichen Verarbeitungsschritten.

Diese Vorteile verdeutlichen, wie sich die Instanzsegmentierung auf verschiedene Anwendungsfälle auswirkt, aber es ist auch wichtig, die Herausforderungen zu berücksichtigen, die mit ihrer Umsetzung verbunden sind. 

Hier sind einige der wichtigsten Einschränkungen der Instanzensegmentierung:

  • Probleme mit der Transparenz: Die Segmentierung transparenter oder reflektierender Objekte wie Glas und Wasser ist schwierig und führt zu ungenauen Grenzen.
  • Wartungsaufwand: Um die Modelle genau und relevant zu halten, sind ständige Aktualisierungen und Feinabstimmungen erforderlich, wenn sich Umweltbedingungen und Datensätze ändern.
  • Hoher Annotationsaufwand: Das Training von Instanzsegmentierungsmodellen erfordert detaillierte Annotationen auf Pixelebene, was den Zeit- und Kostenaufwand für die Datenaufbereitung erheblich erhöht.

Die wichtigsten Erkenntnisse

Die Instanzsegmentierung ermöglicht es, einzelne Objekte präzise zu unterscheiden, selbst wenn sie sich überschneiden. Durch die Erfassung der Objektgrenzen auf Pixelebene ermöglicht sie ein tieferes Verständnis der visuellen Daten im Vergleich zu herkömmlichen Computer-Vision-Aufgaben wie der Objekterkennung.

Die jüngsten Fortschritte in der Computer Vision haben die Segmentierung von Instanzen schneller und einfacher gemacht. Insbesondere Computer-Vision-Modelle wie Ultralytics YOLO11 vereinfachen den Prozess und ermöglichen eine Echtzeit-Segmentierung mit minimaler Einrichtung, was sie für verschiedene Branchen und Anwendungen zugänglicher macht.

Neugierig auf KI? Besuchen Sie unser GitHub-Repository und verbinden Sie sich mit unserer Community, um weiter zu forschen. Erfahren Sie mehr über Innovationen wie KI in selbstfahrenden Autos und Vision AI in der Landwirtschaft auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen und beginnen Sie mit einem Computer Vision-Projekt!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert