Entdecken Sie, wie die Instanzsegmentierung die Objekterkennung mit pixelgenauer Präzision verfeinert und so detaillierte Objektmasken für KI-Anwendungen ermöglicht.
Die Instanzsegmentierung ist eine hochentwickelte Computer-Vision-Technik (CV), die Objekte innerhalb eines Bildes identifiziert und die genauen Grenzen jeder einzelnen Instanz auf Pixelebene abgrenzt. Im Gegensatz zu Methoden, die Objekte nur umrahmen, bietet die Instanzsegmentierung ein viel detaillierteres Verständnis einer Szene, indem sie für jedes erkannte Objekt eine eigene Maske erstellt, selbst wenn sie zur selben Klasse gehören. Diese Fähigkeit ist für fortgeschrittene Anwendungen der künstlichen Intelligenz (KI) von entscheidender Bedeutung, bei denen die genaue Kenntnis der Form, Größe und räumlichen Ausdehnung verschiedener Objekte wichtig ist, insbesondere wenn sich Objekte überschneiden.
Modelle zur Instanzsegmentierung analysieren ein Bild, um zunächst potenzielle Objekte zu lokalisieren und dann für jedes erkannte Objekt vorherzusagen, welche Pixel zu dieser spezifischen Instanz gehören. Herkömmliche Ansätze, wie die einflussreiche Mask R-CNN-Architektur, verwenden häufig einen zweistufigen Prozess: Zunächst führen sie eine Objekterkennung durch, um Vorschläge für Begrenzungsrahmen zu generieren, und anschließend erzeugen sie eine Segmentierungsmaske innerhalb jedes vorgeschlagenen Rahmens. Diese Methoden sind zwar effektiv, können aber sehr rechenintensiv sein.
Neuere Ansätze, darunter Modelle wie Ultralytics YOLO, verwenden oft einstufige Pipelines. Diese Modelle sagen in einem einzigen Durchgang durch das neuronale Netz (NN) gleichzeitig Bounding Boxes, Klassenbezeichnungen und Instanzmasken voraus, was zu erheblichen Geschwindigkeitsverbesserungen führt und sie für Echtzeit-Inferenz geeignet macht. Für das Training dieser Modelle sind große Datensätze mit Annotationen auf Pixelebene erforderlich, wie z. B. der weit verbreitete COCO-Datensatz, insbesondere seine Segmentierungsannotationen. Der Prozess umfasst in der Regel Deep-Learning-Techniken (DL), bei denen Convolutional Neural Networks (CNNs) zum Erlernen komplexer visueller Merkmale eingesetzt werden.
Es ist wichtig, die Instanzsegmentierung von anderen Bildsegmentierungsaufgaben zu unterscheiden:
Die Instanzsegmentierung konzentriert sich speziell auf die Erkennung und Abgrenzung einzelner Objektinstanzen und bietet eine hohe Genauigkeit hinsichtlich der Objektgrenzen und -trennung.
Die Fähigkeit, einzelne Objekte präzise zu identifizieren und zu isolieren, macht die Instanzsegmentierung in zahlreichen Bereichen von unschätzbarem Wert:
Ultralytics bietet hochmoderne Modelle, die eine effiziente Instanzsegmentierung durchführen können. Modelle wie YOLOv8 und YOLO11 sind so konzipiert, dass sie bei verschiedenen Computer-Vision-Aufgaben, einschließlich der Segmentierung von Instanzen, eine hohe Leistung erbringen(siehe Details zur Segmentierungsaufgabe). Benutzer können vortrainierte Modelle nutzen oder mit Hilfe von Tools wie der Ultralytics HUB-Plattform, die den Arbeitsablauf des maschinellen Lernens (ML) von der Datenverwaltung bis zur Modellbereitstellung vereinfacht, Feinabstimmungen an benutzerdefinierten Datensätzen vornehmen. Für die praktische Umsetzung stehen Ressourcen wie Tutorials zur Segmentierung mit vortrainierten Ultralytics YOLOv8-Modellen oder Anleitungen zur Isolierung von Segmentierungsobjekten zur Verfügung. Sie können auch lernen, wie man Ultralytics YOLO11 für die Segmentierung von Beispielen verwendet. Beliebte Frameworks wie PyTorch und TensorFlow werden üblicherweise für die Entwicklung und den Einsatz dieser Modelle verwendet.