Entdecken Sie die Leistungsfähigkeit der Bildsegmentierung mit Ultralytics YOLO. Entdecken Sie Präzision auf Pixelebene, Typen, Anwendungen und reale AI-Anwendungsfälle.
Die Bildsegmentierung ist eine hochentwickelte Technik der Computervision (CV), bei der ein digitales Bild in mehrere Untergruppen von Pixeln unterteilt wird, die oft als Bildsegmente oder -bereiche bezeichnet werden. Im Gegensatz zur Im Gegensatz zur Standard- Bildklassifizierung, bei der ein einzelnes Label einem gesamten Bild zugewiesen wird, analysiert die Segmentierung visuelle Daten auf einer viel granulareren Ebene, indem jedem einzelnen Pixel ein spezifisches Klassenlabel zugewiesen wird. Dieser Prozess erstellt eine präzise Karte auf Pixelebene, die es Modellen der künstlichen Intelligenz (KI) ermöglicht, nicht nur zu verstehen, welche Objekte vorhanden sind, sondern auch, wo genau sie sich befinden und wo ihre spezifischen Grenzen liegen.
Um dieses hochpräzise Verständnis zu erreichen, nutzen Segmentierungsmodelle in der Regel Deep-Learning-Architekturen (DL), insbesondere Convolutional Neural Networks (CNNs). Diese Netzwerke fungieren als leistungsstarke Merkmalsextraktoren, die Muster wie Kanten, Texturen und komplexe Formen identifizieren. Traditionelle Segmentierungsarchitekturen, wie das klassische U-Net, verwenden häufig eine Encoder-Decoder-Struktur. Der Encoder komprimiert das Eingabebild, um den semantischen Kontext zu erfassen, während der Decoder räumliche Details rekonstruiert, um eine endgültige Segmentierungsmaske auszugeben.
Moderne Fortschritte haben zu Echtzeitarchitekturen wie YOLO26 geführt, das im Januar 2026 veröffentlicht wurde. Diese Modelle integrieren Segmentierungsfunktionen direkt in eine End-to-End-Pipeline und ermöglichen so eine schnelle Verarbeitung auf verschiedenen Hardwarekomponenten, von Cloud-GPUs bis hin zu Edge-Geräten .
Je nach dem spezifischen Ziel eines Projekts wählen Entwickler in der Regel zwischen drei Hauptsegmentierungstechniken:
Es ist wichtig, die Segmentierung von der Objekterkennung zu unterscheiden. Während Erkennungsalgorithmen Objekte mithilfe eines rechteckigen Begrenzungsrahmens lokalisieren, beziehen sie zwangsläufig auch Hintergrundpixel in diesen Rahmen mit ein. Die Segmentierung bietet eine genauere und präzisere Darstellung, indem sie die genaue Kontur oder das Polygon des Objekts nachzeichnet. Dieser Unterschied ist entscheidend für Anwendungen wie das robotergestützte Greifen, bei denen ein Roboterarm die genaue Geometrie eines Objekts kennen muss, um es ohne Kollision zu manipulieren.
Die Präzision, die die Bildsegmentierung bietet, treibt Innovationen in verschiedenen Branchen voran:
Entwickler können die Instanzsegmentierung mithilfe der ultralytics Python . Das
folgende Beispiel verwendet die neueste YOLO26-Modell,
das sowohl hinsichtlich Geschwindigkeit als auch Genauigkeit optimiert ist.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
# 'n' denotes the nano version, optimized for speed
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to generate masks
# The model identifies objects and outlines their shape
results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with segmentation overlays
results[0].show()
Um bei benutzerdefinierten Aufgaben eine hohe Leistung zu erzielen, müssen Teams häufig hochwertige Trainingsdaten kuratieren. Die Ultralytics vereinfacht diesen Prozess, indem sie Tools zum Annotieren von Bildern mit Polygonmasken, zum Verwalten von Datensätzen und zum Trainieren von Modellen in der Cloud bereitstellt und so den gesamten Lebenszyklus von Machine Learning Operations (MLOps) optimiert. Bibliotheken wie OpenCV werden häufig neben diesen Modellen zur Vorverarbeitung von Bildern und Nachbearbeitung der resultierenden Masken verwendet.