Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Was ist Mask R-CNN und wie funktioniert es?

Lerne, wie Mask R-CNN eingesetzt werden kann, um Objekte in Bildern und Videos für verschiedene Anwendungen in unterschiedlichen Sektoren präzise zu segmentieren.

ABAbirami Vina
4 min read
Instanzsegmentierung mit Mask R-CNN

Innovationen wie Roboter in Lagerhäusern, selbstfahrende Autos, die sich sicher durch belebte Straßen bewegen, Drohnen zur Überwachung von Ernteflächen und KI-Systeme zur Produktinspektion in Fabriken werden mit zunehmender Verbreitung von KI immer alltäglicher. Eine Schlüsseltechnologie, die diese Innovationen vorantreibt, ist Computer Vision, ein Teilbereich der KI, der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren.

Objekterkennung ist beispielsweise eine Aufgabe der Computer Vision, die dabei hilft, Objekte in Bildern mithilfe von Bounding Boxes zu identifizieren und zu lokalisieren. Obwohl Bounding Boxes hilfreiche Informationen bieten, liefern sie nur eine grobe Einschätzung der Position eines Objekts und können dessen exakte Form oder Begrenzungen nicht erfassen. Dies macht sie weniger effektiv in Anwendungen, die eine präzise Identifizierung erfordern.

Um dieses Problem zu lösen, entwickelten Forscher Segmentierungsmodelle, die die exakten Konturen von Objekten erfassen und Pixel-Level-Details für eine genauere Erkennung und Analyse liefern.

Mask R-CNN ist eines dieser Modelle. Es wurde 2017 von Facebook AI Research (FAIR) eingeführt und baut auf früheren Modellen wie R-CNN, Fast R-CNN und Faster R-CNN auf. Als wichtiger Meilenstein in der Geschichte der Computer Vision hat Mask R-CNN den Weg für fortgeschrittenere Modelle geebnet, wie zum Beispiel Ultralytics YOLO11.

In diesem Artikel werden wir untersuchen, was Mask R-CNN ist, wie es funktioniert, welche Anwendungen es hat und welche Verbesserungen danach folgten, die schließlich zu YOLO11 führten.

Link to this sectionEin Überblick über Mask R-CNN#

Mask R-CNN, was für Mask Region-based Convolutional Neural Network steht, ist ein Deep-Learning-Modell, das für Computer-Vision-Aufgaben wie Objekterkennung und Instanzsegmentierung entwickelt wurde.

Instanzsegmentierung geht über die traditionelle Objekterkennung hinaus, indem sie Objekte in einem Bild nicht nur identifiziert, sondern jedes einzelne auch präzise umreißt. Sie weist jedem erkannten Objekt eine eindeutige Kennzeichnung zu und erfasst dessen exakte Form auf Pixelebene. Dieser detaillierte Ansatz macht es möglich, überlappende Objekte klar zu unterscheiden und komplexe Formen präzise zu handhaben.

Mask R-CNN baut auf Faster R-CNN auf, das Objekte erkennt und kennzeichnet, aber nicht deren exakte Formen definiert. Mask R-CNN verbessert dies, indem es die exakten Pixel identifiziert, aus denen jedes Objekt besteht, was eine weitaus detailliertere und genauere Bildanalyse ermöglicht.

Vergleich von Objekterkennung und Instanzsegmentierung

Abb. 1. Vergleich zwischen Objekterkennung und Instanzsegmentierung.

Link to this sectionEin Blick auf die Architektur von Mask R-CNN und seine Funktionsweise#

Mask R-CNN verfolgt einen schrittweisen Ansatz, um Objekte präzise zu erkennen und zu segmentieren. Es beginnt mit der Extraktion von Schlüsselmerkmalen mittels eines tiefen neuronalen Netzwerks (ein mehrschichtiges Modell, das aus Daten lernt), identifiziert dann potenzielle Objektbereiche mit einem Region Proposal Network (eine Komponente, die wahrscheinliche Objektregionen vorschlägt) und verfeinert diese Bereiche schließlich durch die Erstellung detaillierter Segmentierungsmasken (präzise Umrisse von Objekten), die die exakte Form jedes Objekts erfassen.

Als nächstes gehen wir jeden Schritt durch, um ein besseres Verständnis dafür zu bekommen, wie Mask R-CNN funktioniert.

Übersicht der Mask R-CNN Architektur

Abb. 2. Ein Überblick über die Architektur von Mask R-CNN (Quelle: researchgate.net).

Link to this sectionBeginnend mit der Merkmalsextraktion#

Der erste Schritt in der Architektur von Mask R-CNN besteht darin, das Bild in seine Schlüsselbestandteile zu zerlegen, damit das Modell verstehen kann, was darauf zu sehen ist. Stell dir vor, du betrachtest ein Foto und nimmst ganz natürlich Details wie Formen, Farben und Kanten wahr. Das Modell tut etwas Ähnliches mithilfe eines tiefen neuronalen Netzwerks, das "Backbone" genannt wird (oft ResNet-50 oder ResNet-101) und wie seine Augen fungiert, um das Bild zu scannen und Schlüsseldetails zu erfassen.

Da Objekte in Bildern sehr klein oder sehr groß sein können, verwendet Mask R-CNN ein Feature Pyramid Network. Das ist so, als hätte man verschiedene Lupen, die es dem Modell ermöglichen, sowohl feine Details als auch das große Ganze zu sehen, wodurch sichergestellt wird, dass Objekte jeder Größe erkannt werden.

Sobald diese wichtigen Merkmale extrahiert sind, macht sich das Modell daran, die potenziellen Objekte im Bild zu lokalisieren und bereitet so den Boden für die weitere Analyse.

Link to this sectionVorschlagen potenzieller Bereiche im Bild mit Objekten#

Nachdem das Bild auf Schlüsselmerkmale hin verarbeitet wurde, übernimmt das Region Proposal Network. Dieser Teil des Modells betrachtet das Bild und schlägt Bereiche vor, die wahrscheinlich Objekte enthalten.

Dies geschieht durch die Generierung mehrerer möglicher Objektstandorte, sogenannter Anchors. Das Netzwerk bewertet dann diese Anchors und wählt die vielversprechendsten für die weitere Analyse aus. Auf diese Weise konzentriert sich das Modell nur auf die Bereiche, die am ehesten von Interesse sind, anstatt jeden einzelnen Punkt im Bild zu überprüfen.

Diagramm eines Region Proposal Network

Abb. 3. Ein Beispiel für ein Region Proposal Network.

Link to this sectionVerbesserung der extrahierten Merkmale#

Nachdem die Schlüsselbereiche identifiziert wurden, ist der nächste Schritt die Verfeinerung der aus diesen Regionen extrahierten Details. Frühere Modelle verwendeten eine Methode namens ROI Pooling (Region of Interest Pooling), um Merkmale aus jedem Bereich zu erfassen, aber diese Technik führte manchmal zu leichten Fehljustierungen bei der Größenänderung von Regionen, was sie besonders für kleinere oder überlappende Objekte weniger effektiv machte.

Mask R-CNN verbessert dies durch eine Technik, die als ROI Align (Region of Interest Align) bezeichnet wird. Anstatt Koordinaten abzurunden wie beim ROI Pooling, verwendet ROI Align bilineare Interpolation, um Pixelwerte präziser zu schätzen. Bilineare Interpolation ist eine Methode, die einen neuen Pixelwert durch Mittelung der Werte seiner vier nächsten Nachbarn berechnet, was zu flüssigeren Übergängen führt. Dies hält die Merkmale korrekt auf das ursprüngliche Bild ausgerichtet, was zu einer genaueren Objekterkennung und -segmentierung führt.

In einem Fußballspiel könnten beispielsweise zwei Spieler, die dicht beieinander stehen, miteinander verwechselt werden, weil sich ihre Bounding Boxes überlappen. ROI Align hilft dabei, sie zu trennen, indem es ihre Formen klar voneinander abgrenzt.

Diagramm, wie Mask R-CNN ROI Align verwendet

Abb. 4. Mask R-CNN verwendet ROI Align.

Link to this sectionKlassifizierung von Objekten und Vorhersage ihrer Masken#

Sobald ROI Align das Bild verarbeitet hat, besteht der nächste Schritt darin, Objekte zu klassifizieren und ihre Positionen feinabzustimmen. Das Modell betrachtet jede extrahierte Region und entscheidet, welches Objekt sie enthält. Es weist verschiedenen Kategorien einen Wahrscheinlichkeitswert zu und wählt die beste Übereinstimmung aus.

Gleichzeitig passt es die Bounding Boxes an, um die Objekte besser zu umschließen. Die anfänglichen Boxen sind möglicherweise nicht ideal platziert, daher trägt dies zur Verbesserung der Genauigkeit bei, indem sichergestellt wird, dass jede Box das erkannte Objekt eng umschließt.

Abschließend geht Mask R-CNN einen zusätzlichen Schritt: Es generiert parallel eine detaillierte Segmentierungsmasken für jedes Objekt.

Link to this sectionMask R-CNN und seine Echtzeitanwendungen#

Als dieses Modell herauskam, stieß es in der KI-Community auf große Begeisterung und wurde bald in verschiedenen Anwendungen eingesetzt. Seine Fähigkeit, Objekte in Echtzeit zu erkennen und zu segmentieren, veränderte die Spielregeln in verschiedenen Branchen.

Zum Beispiel ist das Tracking bedrohter Tierarten in freier Wildbahn eine herausfordernde Aufgabe. Viele Arten bewegen sich durch dichte Wälder, was es für Naturschützer schwierig macht, sie im Auge zu behalten. Traditionelle Methoden verwenden Kamerafallen, Drohnen und Satellitenbilder, aber das manuelle Sortieren dieser Datenmengen ist zeitaufwendig. Fehlidentifikationen und verpasste Sichtungen können den Naturschutz verlangsamen.

Durch die Erkennung einzigartiger Merkmale wie Tigerstreifen, Giraffenflecken oder der Form von Elefantenohren kann Mask R-CNN Tiere in Bildern und Videos mit größerer Genauigkeit erkennen und segmentieren. Selbst wenn Tiere teilweise von Bäumen verdeckt werden oder dicht beieinander stehen, kann das Modell sie trennen und jedes einzeln identifizieren, was die Wildtierüberwachung schneller und zuverlässiger macht.

Erkennung und Segmentierung von Tieren mit Mask R-CNN

Abb. 5. Erkennen und Segmentieren von Tieren mit Mask R-CNN.

Link to this sectionEinschränkungen von Mask R-CNN#

Trotz seiner historischen Bedeutung bei der Objekterkennung und Segmentierung hat Mask R-CNN auch einige wesentliche Nachteile. Hier sind einige Herausforderungen im Zusammenhang mit Mask R-CNN:

  • Hoher Rechenbedarf: Es ist auf leistungsstarke GPUs angewiesen, was den Betrieb teuer und bei der Verarbeitung großer Datenmengen langsam machen kann.
  • Langsamere Verarbeitungsgeschwindigkeit: Sein mehrstufiger Prozess macht es im Vergleich zu schnelleren Echtzeitmodellen wie YOLO langsamer, was für zeitkritische Aufgaben möglicherweise nicht ideal ist.
  • Abhängigkeit von hochwertigen Daten: Das Modell erzielt die besten Ergebnisse mit klaren, gut gekennzeichneten Bildern. Unscharfe oder schlecht beleuchtete Bilder können die Genauigkeit erheblich verringern.
  • Komplexe Implementierung: Die mehrstufige Architektur kann schwierig einzurichten und zu optimieren sein, insbesondere beim Umgang mit großen Datensätzen oder begrenzten Ressourcen.

Link to this sectionVon Mask R-CNN zu Ultralytics YOLO11#

Mask R-CNN war großartig für Segmentierungsaufgaben, aber viele Branchen wollten Computer Vision einführen und dabei Geschwindigkeit und Echtzeitleistung priorisieren. Diese Anforderung veranlasste Forscher dazu, einstufige Modelle zu entwickeln, die Objekte in einem einzigen Durchgang erkennen, was die Effizienz erheblich steigerte.

Im Gegensatz zum mehrstufigen Prozess von Mask R-CNN konzentrieren sich einstufige Computer-Vision-Modelle wie YOLO (You Only Look Once) auf Computer-Vision-Aufgaben in Echtzeit. Anstatt Erkennung und Segmentierung separat zu handhaben, können YOLO-Modelle ein Bild in einem Durchgang analysieren. Das macht sie ideal für Anwendungen wie autonomes Fahren, Gesundheitswesen, Fertigung und Robotik, bei denen schnelle Entscheidungsfindung entscheidend ist.

Insbesondere YOLO11 geht noch einen Schritt weiter, indem es sowohl schnell als auch genau ist. Es verwendet 22 % weniger Parameter als YOLOv8m, erzielt aber dennoch eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz, was bedeutet, dass es Objekte präziser erkennt. Seine verbesserte Verarbeitungsgeschwindigkeit macht es zu einer guten Wahl für Echtzeitanwendungen, bei denen jede Millisekunde zählt.

Leistung von YOLO11 im Vergleich zu anderen Modellen

Abb. 6. Leistung von YOLO11 im Vergleich zu anderen Modellen.

Link to this sectionWichtige Erkenntnisse#

Wenn man auf die Geschichte der Computer Vision zurückblickt, wird Mask R-CNN als ein bedeutender Durchbruch bei der Objekterkennung und Segmentierung anerkannt. Dank seines detaillierten mehrstufigen Prozesses liefert es selbst in komplexen Umgebungen sehr präzise Ergebnisse.

Dieser gleiche Prozess macht es jedoch im Vergleich zu Echtzeitmodellen wie YOLO langsamer. Da der Bedarf an Geschwindigkeit und Effizienz wächst, verwenden viele Anwendungen heute einstufige Modelle wie Ultralytics YOLO11, die eine schnelle und genaue Objekterkennung bieten. Während Mask R-CNN für das Verständnis der Entwicklung der Computer Vision wichtig ist, unterstreicht der Trend zu Echtzeitlösungen die wachsende Nachfrage nach schnelleren und effizienteren Computer-Vision-Lösungen.

Tritt unserer wachsenden community bei! Erkunde unser GitHub repository, um mehr über AI zu erfahren. Bereit, deine eigenen Computer-Vision-Projekte zu starten? Sieh dir unsere licensing options an. Entdecke AI in agriculture und vision AI in healthcare auf unseren Lösungsseiten!

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens