Glossar

Instanz-Segmentierung

Entdecken Sie, wie die Instanzsegmentierung die Objekterkennung mit pixelgenauer Präzision verfeinert und so detaillierte Objektmasken für KI-Anwendungen ermöglicht.

Die Segmentierung von Objekten ist eine fortgeschrittene Aufgabe der Computer Vision (CV), die einzelne Objekte in einem Bild auf Pixelebene identifiziert und abgrenzt. Im Gegensatz zu anderen Bildverarbeitungsaufgaben wird dabei nicht einfach ein Bild klassifiziert oder ein Begrenzungsrahmen um Objekte gezeichnet, sondern es wird eine präzise pixelweise Maske für jedes einzelne Objekt erzeugt. Diese Technik ermöglicht ein viel tieferes Verständnis einer Szene, da sie zwischen sich überschneidenden Objekten der gleichen Klasse unterscheiden kann.

Instanz- vs. Semantische und Objekt-Erkennung

Es ist wichtig, die Instanzsegmentierung von anderen verwandten Bildverarbeitungsaufgaben zu unterscheiden.

  • Objekt-Erkennung: Bei dieser Aufgabe werden das Vorhandensein und die Position von Objekten identifiziert, indem in der Regel rechteckige Begrenzungsrahmen um sie herum gezeichnet und eine Klassenbezeichnung zugewiesen wird. Sie beantwortet die Frage "Was ist im Bild und wo befindet es sich?", liefert aber keine Forminformationen.
  • Semantische Segmentierung: Bei dieser Aufgabe wird jedes Pixel eines Bildes einer bestimmten Kategorie zugeordnet. Zum Beispiel würde sie alle Pixel, die zu Autos gehören, als "Auto" bezeichnen, aber sie würde nicht zwischen zwei verschiedenen Autos im Bild unterscheiden. Sie beantwortet die Frage "Zu welcher Kategorie gehört jedes Pixel?"
  • Instanz-Segmentierung: Hier werden die Fähigkeiten der Objekterkennung und der semantischen Segmentierung kombiniert. Sie erkennt jede Objektinstanz und erzeugt eine eindeutige Segmentierungsmaske für sie. Bei einem Bild mit drei Autos würde die Instanzsegmentierung drei separate Masken ausgeben, die jeweils einem bestimmten Auto entsprechen.
  • Panoptische Segmentierung: Dies ist die umfassendste der Segmentierungsaufgaben, die semantische und instanzielle Segmentierung vereint. Jedem Pixel wird eine Klassenbezeichnung und eine eindeutige Instanz-ID zugewiesen, wodurch ein vollständiges, einheitliches Verständnis der Szene entsteht.

So funktioniert die Instanzsegmentierung

Modelle zur Segmentierung von Objekten erfüllen in der Regel zwei Hauptfunktionen: Erstens erkennen sie alle Objektinstanzen in einem Bild, und zweitens erzeugen sie für jede erkannte Instanz eine Segmentierungsmaske. Dieser Prozess wurde durch Architekturen wie Mask R-CNN bekannt gemacht, die Objektdetektoren wie Faster R-CNN um einen parallelen Zweig erweitern, der eine binäre Maske für jede Region von Interesse vorhersagt. Moderne Modelle haben diesen Prozess weiter verfeinert, um die Geschwindigkeit und Genauigkeit zu erhöhen, so dass bei vielen Anwendungen Echtzeit-Inferenzen möglich sind. Die Entwicklung stützt sich häufig auf leistungsstarke Deep-Learning-Frameworks wie PyTorch und TensorFlow.

Anwendungen in der realen Welt

Die detaillierten Objektumrisse, die die Instanzsegmentierung liefert, sind in zahlreichen Bereichen von großem Nutzen.

  • Autonome Fahrzeuge: Selbstfahrende Autos sind auf die Segmentierung von Instanzen angewiesen, um die Form und Position einzelner Fußgänger, Fahrzeuge und Radfahrer genau zu erkennen. Diese Detailgenauigkeit ist entscheidend für die sichere Navigation und Pfadplanung, insbesondere in komplexen städtischen Umgebungen mit vielen sich überschneidenden Objekten. Datensätze wie Cityscapes haben diesen Bereich entscheidend vorangebracht.
  • Medizinische Bildanalyse: In der Radiologie wird die Instanzsegmentierung verwendet, um Tumore, Läsionen und Organe aus CT- oder MRT-Scans mit hoher Präzision abzugrenzen. Dies hilft Ärzten, die Größe eines Tumors zu messen, Operationen zu planen und die Wirksamkeit der Behandlung zu überwachen. Mehr dazu erfahren Sie in unserem Blogbeitrag über die Verwendung von YOLO11 zur Tumorerkennung.
  • Robotik: Roboter nutzen die Instanzensegmentierung, um ihre Umgebung zu verstehen, bestimmte Objekte zu erkennen und Hindernissen mit größerer Genauigkeit auszuweichen. Dies ist entscheidend für Aufgaben in der Fertigung und Logistik.
  • Analyse von Satellitenbildern: Diese Technik wird eingesetzt, um einzelne Bäume in einem Wald zu zählen, Gebäude in einer Stadt zu kartieren oder Veränderungen in der Landnutzung im Laufe der Zeit mit Daten von Organisationen wie der NASA zu verfolgen.
  • Landwirtschaft: Sie kann zur Identifizierung und Zählung einzelner Früchte für die Ertragsschätzung oder zur Erkennung bestimmter Unkräuter für den gezielten Herbizideinsatz eingesetzt werden - ein wichtiger Bestandteil der Präzisionslandwirtschaft.

Instanzsegmentierung mit Ultralytics YOLO

Ultralytics bietet hochmoderne Modelle, die eine effiziente Instanzsegmentierung durchführen können. Modelle wie YOLOv8 und das neueste YOLO11 sind so konzipiert, dass sie bei verschiedenen Bildverarbeitungsaufgaben, einschließlich der Instanzsegmentierung, hohe Leistungen erbringen. Weitere Einzelheiten finden Sie in unserer Dokumentation für die Segmentierungsaufgabe. Benutzer können vortrainierte Modelle nutzen oder eine Feinabstimmung an benutzerdefinierten Datensätzen wie COCO vornehmen, indem sie Tools wie die Ultralytics HUB-Plattform verwenden, die den Arbeitsablauf des maschinellen Lernens (ML) von der Datenverwaltung bis zur Modellbereitstellung vereinfacht. Für die praktische Umsetzung stehen Ressourcen wie unser Lehrgang zur Segmentierung mit vortrainierten Ultralytics YOLOv8-Modellen oder unser Leitfaden zur Isolierung von Segmentierungsobjekten zur Verfügung. Sie können auch lernen , wie Sie Ultralytics YOLO11 für die Segmentierung von Instanzen verwenden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert