Glossar

Objekterkennung

Entdecken Sie die Leistungsfähigkeit der Objekterkennung – identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erkunden Sie reale Anwendungen!

Die Objekterkennung ist eine grundlegende Aufgabe im Bereich Computer Vision (CV), bei der ein oder mehrere Objekte innerhalb eines Bildes oder Videos identifiziert und lokalisiert werden. Ziel ist es nicht nur, die Objekte zu klassifizieren, sondern auch ihre Position zu bestimmen, typischerweise durch Zeichnen eines Begrenzungsrahmens um jedes Objekt. Diese Technologie dient als Eckpfeiler für viele fortschrittliche Anwendungen der Künstlichen Intelligenz (KI) und ermöglicht es Maschinen, ihre physische Umgebung mit einem hohen Maß an Verständnis wahrzunehmen und zu interpretieren.

Wie funktioniert Objekterkennung?

Objekterkennungsmodelle werden typischerweise mit Deep Learning (DL), insbesondere mit Convolutional Neural Networks (CNNs), erstellt. Der Prozess umfasst das Einspeisen eines Bildes in das Netzwerk, das dann eine Liste der erkannten Objekte ausgibt, jedes mit einer Klassenbezeichnung (z. B. "Person", "Auto", "Hund"), einem Konfidenzwert und den Koordinaten seiner Bounding Box.

Moderne Objekterkennungsarchitekturen bestehen aus zwei Hauptteilen: einem Backbone zum Extrahieren von Merkmalen aus dem Eingabebild und einem Detection Head zum Vorhersagen der Bounding Boxes und Klassen. Diese Architekturen werden oft entweder als One-Stage- oder Two-Stage-Detektoren kategorisiert.

One-Stage Objektdetektoren: Modelle wie die Ultralytics YOLO-Familie führen die Erkennung in einem einzigen Durchgang durch, wodurch sie sehr schnell und für Echtzeit-Inferenz geeignet sind. Sie sagen alle Bounding Boxes und Klassenwahrscheinlichkeiten gleichzeitig voraus.
Two-Stage Object Detectors: Architekturen wie R-CNN und seine Varianten schlagen zuerst Regionen von Interesse vor und klassifizieren dann Objekte innerhalb dieser Regionen. Obwohl sie oft sehr genau sind, können sie langsamer sein als One-Stage-Detektoren.

Objekterkennung vs. andere CV-Aufgaben

Es ist wichtig, Objekterkennung von anderen verwandten Computer-Vision-Aufgaben zu unterscheiden:

Bildklassifizierung: Weist einem gesamten Bild eine einzelne Bezeichnung zu (z. B. "dies ist ein Bild von einer Katze"). Sie lokalisiert das Objekt nicht.
Bildsegmentierung: Klassifiziert jedes Pixel in einem Bild und liefert so einen präzisen Umriss von Objekten. Die Instanzsegmentierung unterscheidet zwischen verschiedenen Instanzen derselben Objektklasse, während die semantische Segmentierung alle Instanzen einer Klasse als eine Einheit behandelt.
Objektverfolgung: Eine Erweiterung der Objekterkennung, die ein bestimmtes Objekt über mehrere Frames in einem Video verfolgt und seine Identität im Laufe der Zeit beibehält. Sie können mehr in unserem Leitfaden zur Verfolgung bewegter Objekte in Videos erfahren.

Anwendungsfälle in der Praxis

Objekterkennung ist eine transformative Technologie, die in vielen Branchen eingesetzt wird.

Autonome Fahrzeuge: In selbstfahrenden Autos ist die Objekterkennung von entscheidender Bedeutung, um Fußgänger, Radfahrer, andere Fahrzeuge und Verkehrssignale zu identifizieren, damit sicher navigiert werden kann. Unternehmen wie Waymo und Tesla haben stark in diese Technologie investiert, um ihre autonomen Systeme anzutreiben.
KI in der Fertigung: In Montagelinien erkennen Detektionsmodelle automatisch Defekte oder überprüfen, ob Komponenten korrekt montiert sind. Dies verbessert die Qualitätskontrolle und steigert die Produktionseffizienz.
Sicherheit und Überwachung: Automatisierte Systeme nutzen Objekterkennung, um unbefugte Personen, abgestellte Pakete oder ungewöhnliche Aktivitäten in Echtzeit zu identifizieren, wie in unserem Leitfaden zum Aufbau eines Sicherheitsalarmsystems beschrieben.
KI im Gesundheitswesen: In der medizinischen Bildanalyse unterstützen Modelle Radiologen, indem sie Anomalien wie Tumore oder Frakturen in Röntgenaufnahmen und CT-Scans erkennen und hervorheben. In unserem Blog können Sie mehr über die Verwendung von YOLO11 zur Tumorerfassung lesen.
KI in der Landwirtschaft: Drohnen und bodengestützte Roboter, die mit Objekterkennung ausgestattet sind, können die Gesundheit der Pflanzen überwachen, Schädlinge identifizieren und Erträge mit hoher Präzision schätzen.

Tools und Training

Die Entwicklung und Bereitstellung von Objekterkennungsmodellen umfasst ein reichhaltiges Ökosystem von Tools und Techniken.

Frameworks: Beliebte Deep-Learning-Frameworks wie PyTorch und TensorFlow stellen die Kernbibliotheken für die Erstellung von Modellen bereit.
Modelle: Ultralytics bietet hochmoderne Modelle wie YOLOv8 und YOLO11, die auf ein ausgewogenes Verhältnis von Geschwindigkeit und Genauigkeit optimiert sind. Sie können sehen, wie sie sich im Vergleich zu anderen Modellen auf unseren Modellvergleichsseiten schlagen.
Plattformen: Ultralytics HUB vereinfacht den gesamten Workflow, von der Verwaltung von Datensätzen wie dem beliebten COCO-Datensatz über das Training benutzerdefinierter Modelle bis hin zur Erleichterung der Modellbereitstellung.
Techniken: Der Trainingsprozess profitiert oft von Techniken wie Data Augmentation zur Verbesserung der Robustheit und Transfer Learning zur Nutzung von Wissen aus vortrainierten Modellen. Die Modellleistung wird anhand von Metriken wie mAP und IoU bewertet, wie in unserem Leistungsmetriken-Leitfaden erläutert.

Objekterkennung

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie funktioniert Objekterkennung?

Objekterkennung vs. andere CV-Aufgaben

Anwendungsfälle in der Praxis

Tools und Training

Mehr in dieser Kategorie lesen

Die wichtigsten Highlights von Ultralytics auf der PyTorch Conference 2025

Selbstüberwachtes Lernen zur Entrauschung von Bildern

Vision AI unterstützt Systeme zur Überwachung der Fahreraufmerksamkeit

Treten Sie der Ultralytics-Community bei