Erfahren Sie, wie Mask R-CNN verwendet werden kann, um Objekte in Bildern und Videos für verschiedene Anwendungen in unterschiedlichen Bereichen präzise zu segmentieren.

Erfahren Sie, wie Mask R-CNN verwendet werden kann, um Objekte in Bildern und Videos für verschiedene Anwendungen in unterschiedlichen Bereichen präzise zu segmentieren.
Innovationen wie Roboter in Lagerhäusern, selbstfahrende Autos, die sich sicher durch belebte Straßen bewegen, Drohnen, die Ernten kontrollieren, und KI-Systeme, die Produkte in Fabriken inspizieren, werden mit der zunehmenden Verbreitung von KI immer häufiger eingesetzt. Eine Schlüsseltechnologie, die diese Innovationen vorantreibt, ist die Computer Vision, ein Zweig der KI, der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren.
Die Objekterkennung ist beispielsweise eine Aufgabe der Computer Vision, die die Identifizierung und Lokalisierung von Objekten in Bildern mithilfe von Bounding Boxes unterstützt. Bounding Boxes bieten zwar hilfreiche Informationen, aber sie liefern nur eine grobe Schätzung der Position eines Objekts und können dessen genaue Form oder Grenzen nicht erfassen. Daher sind sie bei Anwendungen, die eine genaue Identifizierung erfordern, weniger effektiv.
Um dieses Problem zu lösen, haben Forscher Segmentierungsmodelle entwickelt, die die genauen Konturen von Objekten erfassen und Details auf Pixelebene für eine genauere Erkennung und Analyse liefern.
Mask R-CNN ist eines dieser Modelle. Es wurde 2017 von Facebook AI Research (FAIR) eingeführt und baut auf früheren Modellen wie R-CNN, Fast R-CNN und Faster R-CNN auf. Mask R-CNN ist ein wichtiger Meilenstein in der Geschichte der Computer Vision und hat den Weg für fortschrittlichere Modelle wie Ultralytics YOLO11 geebnet.
In diesem Artikel wird untersucht, was Maske R-CNN ist, wie sie funktioniert, welche Anwendungen es gibt und welche Verbesserungen nach ihr kamen, die zu YOLO11 führten.
Mask R-CNN steht für Mask Region-based Convolutional Neural Network und ist ein Deep-Learning-Modell, das für Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung entwickelt wurde.
Die Instanzsegmentierung geht über die herkömmliche Objekterkennung hinaus, indem sie nicht nur Objekte in einem Bild identifiziert, sondern auch jedes einzelne genau umreißt. Sie weist jedem erkannten Objekt eine eindeutige Bezeichnung zu und erfasst seine genaue Form auf Pixelebene. Dieser detaillierte Ansatz ermöglicht eine klare Unterscheidung zwischen sich überschneidenden Objekten und eine genaue Handhabung komplexer Formen.
Mask R-CNN baut auf Faster R-CNN auf, das Objekte erkennt und kennzeichnet, aber nicht ihre genaue Form definiert. Mask R-CNN verbessert dies, indem es die genauen Pixel identifiziert, aus denen jedes Objekt besteht, was eine viel detailliertere und genauere Bildanalyse ermöglicht.
Mask R-CNN verfolgt einen schrittweisen Ansatz zur genauen Erkennung und Segmentierung von Objekten. Es beginnt mit der Extraktion von Schlüsselmerkmalen mithilfe eines tiefen neuronalen Netzwerks (ein mehrschichtiges Modell, das aus Daten lernt), identifiziert dann potenzielle Objektbereiche mit einem Regionsvorschlagsnetzwerk (eine Komponente, die wahrscheinliche Objektregionen vorschlägt) und verfeinert diese Bereiche schließlich durch die Erstellung detaillierter Segmentierungsmasken (genaue Umrisse von Objekten), die die genaue Form jedes Objekts erfassen.
Im Folgenden gehen wir die einzelnen Schritte durch, um eine bessere Vorstellung davon zu bekommen, wie Maske R-CNN funktioniert.
Der erste Schritt in der Architektur von Mask R-CNN besteht darin, das Bild in seine wichtigsten Bestandteile zu zerlegen, damit das Modell verstehen kann, was darin enthalten ist. Stellen Sie sich das so vor, wie wenn Sie sich ein Foto ansehen und Details wie Formen, Farben und Kanten erkennen. Das Modell macht etwas Ähnliches mit einem tiefen neuronalen Netzwerk, dem so genannten "Backbone" (oft ResNet-50 oder ResNet-101), das wie seine Augen das Bild scannt und die wichtigsten Details aufnimmt.
Da Objekte in Bildern sehr klein oder sehr groß sein können, verwendet Mask R-CNN ein Feature-Pyramidennetzwerk. Das ist so, als hätte man verschiedene Lupen, die es dem Modell ermöglichen, sowohl feine Details als auch das Gesamtbild zu sehen, um sicherzustellen, dass Objekte aller Größen wahrgenommen werden.
Sobald diese wichtigen Merkmale extrahiert sind, geht das Modell dazu über, die potenziellen Objekte im Bild zu lokalisieren, um die Voraussetzungen für die weitere Analyse zu schaffen.
Nachdem das Bild nach wichtigen Merkmalen durchsucht wurde, übernimmt das Region Proposal Network die Arbeit. Dieser Teil des Modells betrachtet das Bild und schlägt Bereiche vor, in denen sich wahrscheinlich Objekte befinden.
Zu diesem Zweck werden mehrere mögliche Objektpositionen, so genannte Anker, generiert. Das Netzwerk bewertet dann diese Ankerpunkte und wählt die vielversprechendsten für die weitere Analyse aus. Auf diese Weise konzentriert sich das Modell nur auf die Bereiche, die am wahrscheinlichsten interessant sind, anstatt jeden einzelnen Punkt im Bild zu überprüfen.
Nachdem die Schlüsselbereiche identifiziert wurden, besteht der nächste Schritt darin, die aus diesen Regionen extrahierten Details zu verfeinern. Frühere Modelle verwendeten eine Methode namens ROI Pooling (Region of Interest Pooling), um Merkmale aus jedem Bereich zu erfassen, aber diese Technik führte manchmal zu leichten Fehlausrichtungen bei der Größenänderung von Regionen, was sie weniger effektiv machte - insbesondere bei kleineren oder überlappenden Objekten.
Mask R-CNN verbessert dies durch die Verwendung einer Technik, die als ROI Align (Region of Interest Align) bezeichnet wird. Anstatt die Koordinaten abzurunden, wie es beim ROI Pooling der Fall ist, verwendet ROI Align eine bilineare Interpolation, um die Pixelwerte genauer zu schätzen. Die bilineare Interpolation ist eine Methode, bei der ein neuer Pixelwert durch Mittelwertbildung der Werte seiner vier nächsten Nachbarn berechnet wird, wodurch weichere Übergänge entstehen. Dadurch bleiben die Merkmale korrekt am Originalbild ausgerichtet, was zu einer genaueren Objekterkennung und -segmentierung führt.
Bei einem Fußballspiel zum Beispiel könnten zwei Spieler, die nahe beieinander stehen, miteinander verwechselt werden, weil sich ihre Bounding Boxes überschneiden. ROI Align hilft dabei, sie voneinander zu trennen, indem ihre Formen deutlich bleiben.
Sobald ROI Align das Bild verarbeitet hat, besteht der nächste Schritt in der Klassifizierung der Objekte und der Feinabstimmung ihrer Position. Das Modell sieht sich jede extrahierte Region an und entscheidet, welches Objekt sie enthält. Es ordnet den verschiedenen Kategorien eine Wahrscheinlichkeitsbewertung zu und wählt die beste Übereinstimmung aus.
Gleichzeitig werden die Bounding Boxes so angepasst, dass sie besser zu den Objekten passen. Die anfänglichen Boxen sind möglicherweise nicht ideal platziert, so dass dies zur Verbesserung der Genauigkeit beiträgt, indem sichergestellt wird, dass jede Box das erkannte Objekt eng umschließt.
Mask R-CNN schließlich unternimmt einen zusätzlichen Schritt: Es erzeugt parallel eine detaillierte Segmentierungsmaske für jedes Objekt.
Als dieses Modell auf den Markt kam, wurde es von der KI-Gemeinschaft mit großer Begeisterung aufgenommen und bald in verschiedenen Anwendungen eingesetzt. Seine Fähigkeit, Objekte in Echtzeit zu erkennen und zu segmentieren, machte es zu einem Wendepunkt in verschiedenen Branchen.
Zum Beispiel ist es eine schwierige Aufgabe, gefährdete Tiere in freier Wildbahn aufzuspüren. Viele Arten bewegen sich durch dichte Wälder, so dass es für Naturschützer schwierig ist, sie im Auge zu behalten. Herkömmliche Methoden nutzen Kamerafallen, Drohnen und Satellitenbilder, aber das manuelle Sortieren all dieser Daten ist zeitaufwändig. Falsche Identifizierungen und verpasste Sichtungen können die Schutzbemühungen verlangsamen.
Durch die Erkennung einzigartiger Merkmale wie Tigerstreifen, Giraffenflecken oder die Form von Elefantenohren kann Mask R-CNN Tiere in Bildern und Videos mit größerer Genauigkeit erkennen und segmentieren. Selbst wenn Tiere teilweise von Bäumen verdeckt werden oder dicht beieinander stehen, kann das Modell sie trennen und jedes einzelne identifizieren, was die Überwachung von Wildtieren schneller und zuverlässiger macht.
Trotz seiner historischen Bedeutung für die Objekterkennung und -segmentierung weist Mask R-CNN auch einige entscheidende Nachteile auf. Hier sind einige Herausforderungen im Zusammenhang mit Mask R-CNN:
Masken-R-CNN eignet sich hervorragend für Segmentierungsaufgaben, aber viele Branchen wollten Computer Vision einführen und legten dabei Wert auf Geschwindigkeit und Echtzeitleistung. Diese Anforderung veranlasste die Forscher, einstufige Modelle zu entwickeln, die Objekte in einem einzigen Durchgang erkennen und so die Effizienz erheblich verbessern.
Im Gegensatz zu dem mehrstufigen Prozess von Mask R-CNN konzentrieren sich einstufige Computer-Vision-Modelle wie YOLO (You Only Look Once) auf Echtzeit-Computer-Vision-Aufgaben. Anstatt Erkennung und Segmentierung getrennt zu behandeln, können YOLO-Modelle ein Bild in einem Schritt analysieren. Dies macht sie ideal für Anwendungen wie autonomes Fahren, Gesundheitswesen, Fertigung und Robotik, bei denen eine schnelle Entscheidungsfindung entscheidend ist.
YOLO11 geht noch einen Schritt weiter, indem es sowohl schnell als auch genau ist. Es verwendet 22 % weniger Parameter als YOLOv8m und erreicht dennoch eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz, d. h. es erkennt Objekte präziser. Die verbesserte Verarbeitungsgeschwindigkeit macht ihn zu einer guten Wahl für Echtzeitanwendungen, bei denen es auf jede Millisekunde ankommt.
In der Geschichte der Computer Vision gilt Mask R-CNN als wichtiger Durchbruch in der Objekterkennung und -segmentierung. Dank seines detaillierten mehrstufigen Prozesses liefert es selbst in komplexen Umgebungen sehr präzise Ergebnisse.
Dieser Prozess macht sie jedoch langsamer als Echtzeitmodelle wie YOLO. Da der Bedarf an Geschwindigkeit und Effizienz wächst, verwenden viele Anwendungen jetzt einstufige Modelle wie Ultralytics YOLO11, die eine schnelle und genaue Objekterkennung bieten. Die Maske R-CNN ist zwar wichtig für das Verständnis der Entwicklung der Computer Vision, aber der Trend zu Echtzeitlösungen unterstreicht die wachsende Nachfrage nach schnelleren und effizienteren Computer Vision Lösungen.
Werden Sie Teil unserer wachsenden Gemeinschaft! Erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, Ihre eigenen Computer Vision Projekte zu starten? Informieren Sie sich über unsere Lizenzierungsoptionen. Entdecken Sie KI in der Landwirtschaft und Vision AI im Gesundheitswesen, indem Sie unsere Lösungsseiten besuchen!