Image Segmentation
Erkunde Bildsegmentierung in der Computer Vision. Lerne, wie Ultralytics YOLO26 präzise Masken auf Pixelebene für Instanz-, semantische und panoptische Segmentierung bereitstellt.
Bildsegmentierung ist ein hochentwickeltes Verfahren in der Computer Vision (CV), bei dem ein digitales Bild in mehrere Pixel-Untergruppen unterteilt wird, die oft als Bildsegmente oder Regionen bezeichnet werden. Im Gegensatz zur standardmäßigen Bildklassifizierung, die einem gesamten Bild ein einzelnes Label zuweist, analysiert die Segmentierung visuelle Daten auf einer wesentlich granulareren Ebene, indem sie jedem einzelnen Pixel ein spezifisches Klassen-Label zuweist. Dieser Prozess erstellt eine präzise Karte auf Pixelebene und ermöglicht es Modellen der Künstlichen Intelligenz (KI), nicht nur zu verstehen, welche Objekte vorhanden sind, sondern auch genau zu wissen, wo sie sich befinden und welche spezifischen Begrenzungen sie haben.
Link to this sectionDie Mechanismen der Analyse auf Pixelebene#
Um dieses hochpräzise Verständnis zu erreichen, nutzen Segmentierungsmodelle in der Regel Architekturen des Deep Learning (DL), insbesondere Convolutional Neural Networks (CNNs). Diese Netzwerke fungieren als leistungsstarke Merkmalsextraktoren und identifizieren Muster wie Kanten, Texturen und komplexe Formen. Herkömmliche Segmentierungsarchitekturen, wie das klassische U-Net, verwenden oft eine Encoder-Decoder-Struktur. Der Encoder komprimiert das Eingabebild, um den semantischen Kontext zu erfassen, während der Decoder räumliche Details rekonstruiert, um eine endgültige Segmentierungsmaske auszugeben.
Moderne Fortschritte haben zu Echtzeit-Architekturen wie YOLO26 geführt, das im Januar 2026 veröffentlicht wurde. Diese Modelle integrieren Segmentierungsfunktionen direkt in eine End-to-End-Pipeline und ermöglichen eine Hochgeschwindigkeitsverarbeitung auf verschiedenster Hardware, von Cloud-GPUs bis hin zu Edge-Geräten.
Link to this sectionHauptarten der Segmentierung#
Je nach spezifischem Ziel eines Projekts wählen Entwickler im Allgemeinen zwischen drei Hauptsegmentierungstechniken:
- Semantische Segmentierung: Diese Methode klassifiziert Pixel basierend auf ihrer Kategorie, unterscheidet jedoch nicht zwischen einzelnen Objekten derselben Klasse. Bei einer Satellitenbildanalyse würden beispielsweise alle Pixel, die „Wald“ repräsentieren, grün eingefärbt werden, wobei der gesamte Wald als eine einzige Einheit behandelt wird.
- Instanzsegmentierung: Diese Technik identifiziert und trennt einzelne Objekte von Interesse. In einer belebten Straßenszene würde die Instanzsegmentierung eine eindeutige Maske für „Auto A“, „Auto B“ und „Fußgänger A“ erzeugen, was es Systemen ermöglicht, spezifische Entitäten zu zählen und zu verfolgen. Dies ist ein Kernmerkmal der Ultralytics YOLO26 Modellfamilie.
- Panoptische Segmentierung: Ein hybrider Ansatz, der die Abdeckung der semantischen Segmentierung mit der Präzision der Instanzsegmentierung kombiniert. Er weist jedem Pixel ein Label zu, unterscheidet amorphe Hintergrundelemente (wie Himmel und Straße) und identifiziert gleichzeitig zählbare Vordergrundobjekte eindeutig.
Link to this sectionAbgrenzung zur Objekterkennung#
Es ist entscheidend, die Segmentierung von der Objekterkennung zu unterscheiden. Während Erkennungsalgorithmen Elemente mithilfe einer rechteckigen Begrenzungsbox lokalisieren, schließen sie zwangsläufig Hintergrundpixel innerhalb dieser Box ein. Die Segmentierung bietet eine engere, genauere Repräsentation, indem sie die exakte Kontur oder das Polygon des Objekts nachzeichnet. Dieser Unterschied ist entscheidend für Anwendungen wie das robotische Greifen, bei denen ein Roboterarm die präzise Geometrie eines Gegenstands kennen muss, um ihn ohne Kollision zu manipulieren.
Link to this sectionPraxisanwendungen#
Die durch Bildsegmentierung gebotene Präzision treibt Innovationen in verschiedenen Branchen voran:
- Medizinische Diagnostik: Auf dem Gebiet der medizinischen Bildanalyse ist die Segmentierung für die Konturierung anatomischer Strukturen unerlässlich. Algorithmen analysieren MRT-Scans, um Tumore oder Organabgrenzungen abzugrenzen, was es Chirurgen ermöglicht, exakte Volumina zu berechnen und Eingriffe mit lebensrettender Genauigkeit zu planen.
- Autonomes Fahren: Selbstfahrende Fahrzeuge verlassen sich auf die Segmentierung, um sicher zu navigieren. Durch die Verarbeitung von Videostreams kann der Computer des Fahrzeugs befahrbare Fahrspuren von Gehsteigen und Hindernissen unterscheiden. Standardisierungsorganisationen wie SAE International definieren Autonomiestufen, die diese hochpräzise Umgebungswahrnehmung erfordern.
- Präzisionslandwirtschaft: Bei der KI in der Landwirtschaft hilft die Segmentierung Robotersystemen dabei, Unkraut zwischen Nutzpflanzen zu identifizieren. Durch das Erstellen von Masken für spezifische Pflanzenblätter können automatisierte Sprühgeräte gezielt nur die invasiven Arten behandeln, was den Herbizideinsatz erheblich reduziert.
Link to this sectionImplementierung der Segmentierung mit YOLO26#
Entwickler können die Instanzsegmentierung effizient mit dem ultralytics Python-Paket implementieren. Das folgende Beispiel verwendet das modernste YOLO26-Modell, das sowohl auf Geschwindigkeit als auch auf Genauigkeit optimiert ist.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()Um eine hohe Leistung bei kundenspezifischen Aufgaben zu erzielen, müssen Teams oft hochwertige Trainingsdaten kuratieren. Die Ultralytics Platform vereinfacht diesen Prozess, indem sie Werkzeuge zur Annotation von Bildern mit Polygonmasken, zur Verwaltung von Datensätzen und zum Trainieren von Modellen in der Cloud bereitstellt und so den gesamten Lebenszyklus des Machine Learning Operations (MLOps) rationalisiert. Bibliotheken wie OpenCV werden ebenfalls häufig neben diesen Modellen zur Vorverarbeitung von Bildern und zur Nachverarbeitung der resultierenden Masken verwendet.






