Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Instanzsegmentierung

Entdecken Sie, wie Instanzsegmentierung die Objekterkennung mit Pixel-genauer Präzision verfeinert und detaillierte Objektmasken für KI-Anwendungen ermöglicht.

Die Segmentierung von Instanzen ist eine hochentwickelte Computer Vision (CV) Technik, die einzelne Objekte in einem einzelne Objekte innerhalb eines Bildes auf Pixelebene lokalisiert und abgrenzt. Im Gegensatz zu Objekterkennung, die den Standort eines Objekts Position eines Objekts mit einer rechteckigen Bounding Box annähert, erzeugt die Segmentierung eine präzise Maske, die die genaue Form jedes einzelnen Objekts umreißt. Diese granulare Ebene der Detail ermöglicht es Systemen, zwischen mehreren Instanzen derselben Klasse zu unterscheiden, z. B. zwischen zwei sich überlappenden Autos oder einzelne Personen in einer Menschenmenge - und ist damit eine wichtige Komponente für fortschrittliche Künstliche Intelligenz (KI) Anwendungen.

Unterschied zu verwandten Aufgaben

Um die Instanzsegmentierung vollständig zu verstehen, ist es hilfreich, sie mit anderen grundlegenden Computer Vision Aufgaben zu vergleichen:

  • Semantische Segmentierung: Diese Aufgabe klassifiziert jedes Pixel eines Bildes in eine Kategorie (z. B. "Himmel", "Straße", "Person"). "Person"), unterscheidet aber nicht zwischen einzelnen Objekten. Alle Pixel, die zur Klasse Klasse "Auto" gehören, werden zusammengefasst, d. h., es kann kein Auto von einem anderen unterschieden werden.
  • Objekt-Erkennung: Diese Aufgabe erkennt das Vorhandensein und die Position von Objekten und umschließt sie mit Bounding Boxes. Sie unterscheidet zwar zwischen einzelnen Instanzen (z. B. Auto A vs. Auto B), erfasst aber nicht deren Form oder Grenzen.
  • Panoptische Segmentierung: Sie kombiniert das Beste aus beiden Welten, indem sie jedem Pixel eine Klassenbezeichnung zuweist (semantisch) und gleichzeitig einzelne Objektinstanzen (Instanz) zu identifizieren, was ein umfassendes Verständnis der Szene ermöglicht.

Die Instanzsegmentierung verbindet die Lokalisierungsfähigkeiten der Objekterkennung mit der Präzision der semantischen Segmentierung auf Pixelebene. Präzision der semantischen Segmentierung.

Funktionsweise

Modelle zur Instanzsegmentierung verwenden im Allgemeinen Deep Learning (DL) Architekturen, insbesondere Convolutional Neural Networks (CNNs), um Merkmale aus einem Bild zu extrahieren. Der Prozess umfasst in der Regel zwei parallele Schritte:

  1. Lokalisierung: Das Modell sagt die Klasse und die Bounding-Box-Koordinaten für jedes Objekt voraus.
  2. Maskenerzeugung: Gleichzeitig prognostiziert das Modell eine binäre Maske innerhalb der erkannten Region, die genau bestimmt, welche Pixel zu dem Objekt gehören.

Frühe Ansätze wie Mask R-CNN verwendeten einen zweistufigen Prozess, bei dem zunächst der zunächst Regionsvorschläge generiert und diese dann verfeinert. Moderne Architekturen, wie z. B. Ultralytics YOLO11haben dies revolutioniert, indem sie die Erkennung und Segmentierung in einem einzigen Schritt. Dies ermöglicht Echtzeit-Inferenz, die es ermöglicht, Objekte Objekte in Live-Videoströmen mit hoher Geschwindigkeit und Genauigkeit segment .

Anwendungsfälle in der Praxis

Die präzise Grenzerkennung, die die Instanzsegmentierung bietet, ist in verschiedenen Branchen unverzichtbar:

  • Medizinische Bildanalyse: Im Gesundheitswesen ist es wichtig, den genauen Umfang und die Form von Anomalien zu erkennen. Die Segmentierung von Instanzen wird verwendet, um Tumoren in MRT-Scans abzugrenzen oder einzelner Zellen in der Mikroskopie, was zu einer präzisen Diagnose und Behandlungsplanung beiträgt.
  • Autonome Fahrzeuge: Selbstfahrende Autos nutzen diese Technologie, um komplexe Straßenszenen zu verstehen. Durch das Training mit Datensätzen wie Stadtansichten können Fahrzeuge zwischen befahrbaren Straßenoberflächen Fußgängern und anderen Fahrzeugen unterscheiden und so eine sichere Navigation auch in überfüllten Umgebungen gewährleisten.
  • Präzisionslandwirtschaft: Landwirte nutzen die Segmentierung, um die Gesundheit der Pflanzen zu überwachen. Mit Bildverarbeitungssystemen ausgestattete Roboter können einzelne Unkraut unter den Pflanzen erkennen und gezielt Herbizide einsetzen oder Roboterarme bei der Ernte von Früchten wie Erdbeeren führen, indem sie ihre genauen Konturen erkennen.
  • Robotik: Damit ein Roboter mit seiner Umgebung interagieren kann, z. B. um einen bestimmten Gegenstand aus einem Behälter zu greifen, muss er die die Ausrichtung und Form des Objekts kennen. Die Instanzsegmentierung liefert die geometrischen Daten, die für eine erfolgreiche Manipulation.

Implementierung der Instanzsegmentierung

Entwickler können die Instanzsegmentierung einfach mit der ultralytics Python . Die Bibliothek unterstützt YOLO11 Modelle, die auf den COCOdie 80 gängige Objektkategorien sofort detect und segment kann. der Box.

Hier ein kurzes Beispiel für das Laden eines Modells und die Segmentierung eines Bildes:

from ultralytics import YOLO

# Load a pre-trained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
# The model predicts classes, boxes, and masks simultaneously
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the results with masks plotted
results[0].show()

Für Benutzer, die dies auf ihre eigenen Daten anwenden wollen, unterstützt das Framework Training auf benutzerdefinierten Datensätzen, so dass das Modell neue Klassen zu lernen, die für Nischenanwendungen spezifisch sind.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten