Glossar

Objekt-Erkennung

Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!

Die Objekterkennung ist eine grundlegende Aufgabe der Computer Vision (CV), bei der es darum geht, das Vorhandensein, den Ort und die Art eines oder mehrerer Objekte in einem Bild oder Video zu erkennen. Im Gegensatz zur Bildklassifizierung, bei der einem gesamten Bild ein einziges Etikett zugewiesen wird (z. B. "Katze"), wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens genau umrissen und ihm ein Klassenetikett zugewiesen (z. B. "Katze" mit den Koordinaten x, y, Breite, Höhe). Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen, die menschliche visuelle Wahrnehmung besser zu imitieren und komplexere Interaktionen mit der Umgebung zu ermöglichen. Es handelt sich um eine Kerntechnologie, die vielen modernen Anwendungen der künstlichen Intelligenz (KI) zugrunde liegt.

Wie die Objekterkennung funktioniert

Bei der Objekterkennung werden in der Regel zwei Kernaufgaben kombiniert: Objektklassifizierung (Bestimmung, "welches" Objekt vorhanden ist) und Objektlokalisierung (Bestimmung, "wo" sich das Objekt befindet, in der Regel über Bounding-Box-Koordinaten). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen, mit Anmerkungen versehenen Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz oder Open Images V7, um visuelle Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind.

Während des Betriebs (bekannt als Inferenz) verarbeitet das trainierte Modell ein Eingabebild oder Videobild. Es gibt eine Liste potenzieller Objekte aus, die jeweils durch einen Begrenzungsrahmen (Bounding Box), eine vorhergesagte Klassenbezeichnung (z. B. "Auto", "Person", "Hund") und einen Konfidenzwert, der die Sicherheit des Modells bei der Erkennung angibt, dargestellt werden. Techniken wie Non-Maximum Suppression (NMS) werden häufig zur Verfeinerung dieser Ergebnisse verwendet, indem redundante, sich überschneidende Boxen für dasselbe Objekt entfernt werden. Die Leistung dieser Modelle wird in der Regel anhand von Metriken wie Intersection over Union (IoU) und mean Average Precision (mAP) bewertet.

Objekterkennung vs. verwandte Aufgaben

Es ist wichtig, die Objekterkennung von anderen verwandten Aufgaben der Computer Vision zu unterscheiden:

  • Bild Klassifizierung: Weist einem ganzen Bild eine einzige Bezeichnung zu (z. B. "Dieses Bild enthält einen Hund"). Es lokalisiert nicht das/die Objekt(e).
  • Bildsegmentierung: Klassifiziert jedes Pixel in einem Bild und erstellt eine detaillierte Karte der Objektgrenzen. Dies ist detaillierter als die Bounding Boxes der Objekterkennung.
    • Semantische Segmentierung: Jedem Pixel wird eine Klassenbezeichnung zugewiesen (z. B. werden alle Pixel, die zu "Autos" gehören, als "Auto" bezeichnet). Es wird nicht zwischen verschiedenen Instanzen der gleichen Klasse unterschieden.
    • Segmentierung der Instanz: Ordnet jedem Pixel eine Klassenbezeichnung zu und unterscheidet zwischen einzelnen Instanzen der gleichen Klasse (z. B. "Auto 1", "Auto 2"). Sie kombiniert Erkennung und Segmentierung.
  • Objekt-Verfolgung: Hierbei werden Objekte in aufeinanderfolgenden Videobildern erkannt und jedem Objekt eine eindeutige ID zugewiesen, um seine Bewegung über die Zeit zu verfolgen. Dies baut auf der Objekterkennung auf.

Arten von Objekterkennungsmodellen

Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Hauptkategorien einteilen, die sich in erster Linie durch ihren Ansatz und den Kompromiss zwischen Geschwindigkeit und Genauigkeit unterscheiden:

  • Zweistufige Objektdetektoren: Diese Modelle schlagen zunächst Regionen von Interesse (RoIs) vor, in denen sich Objekte befinden könnten, und klassifizieren dann die Objekte innerhalb dieser Regionen. Beispiele hierfür sind die R-CNN-Familie (Fast R-CNN, Faster R-CNN). Sie erreichen oft eine hohe Genauigkeit, sind aber tendenziell langsamer.
  • Einstufige Objektdetektoren: Diese Modelle sagen Bounding Boxes und Klassenwahrscheinlichkeiten direkt aus dem Eingabebild in einem einzigen Durchgang voraus, ohne einen separaten Schritt zur Vorhersage von Regionen. Beispiele hierfür sind die Ultralytics YOLO-Serie (You Only Look Once), SSD (Single Shot MultiBox Detector) und RetinaNet. Sie sind in der Regel schneller und eignen sich daher für die Inferenz in Echtzeit, allerdings manchmal auf Kosten einer etwas geringeren Genauigkeit im Vergleich zu zweistufigen Methoden, obwohl Modelle wie YOLO11 diese Lücke wirksam schließen. Neuere Ansätze wie ankerfreie Detektoren vereinfachen den einstufigen Prozess weiter. Sie können Vergleiche zwischen verschiedenen YOLO-Modellen und anderen Architekturen wie RT-DETR anstellen.

Anwendungen in der realen Welt

Die Objekterkennung ist eine Grundlagentechnologie für zahlreiche Anwendungen in verschiedenen Branchen:

  1. Autonome Systeme: Unverzichtbar für selbstfahrende Autos und Roboter, die es Fahrzeugen und Robotern ermöglichen, ihre Umgebung wahrzunehmen, indem sie Fußgänger, andere Fahrzeuge, Hindernisse, Verkehrsschilder und bestimmte Gegenstände für Interaktionen erkennen. Unternehmen wie Tesla und Waymo verlassen sich stark auf eine robuste Objekterkennung.
  2. Sicherheit und Bewachung: Einsatz in Sicherheitsalarmsystemen zur Erkennung von Eindringlingen, zur Überwachung von Menschenmengen(Vision AI in Crowd Management), zur Identifizierung verlassener Objekte und zur Verbesserung der Überwachungseffizienz in öffentlichen Räumen und Privatbesitz.
  3. Einzelhandelsanalyse: Unterstützt Anwendungen wie automatisierte Kassensysteme, KI-gesteuerte Bestandsverwaltung, Regalüberwachung (Erkennung von nicht vorrätigen Artikeln) und die Analyse von Kundenverkehrsmustern.
  4. Gesundheitswesen: Anwendung in der medizinischen Bildanalyse zur Erkennung von Anomalien wie Tumoren(Using YOLO11 for Tumor Detection) oder Läsionen in Röntgenbildern, CT-Scans und MRTs zur Unterstützung von Radiologen bei der Diagnose(Radiology: Artificial Intelligence).
  5. Landwirtschaft: Ermöglicht Präzisionslandwirtschaftstechniken wie die Erkennung von Schädlingen, Krankheiten und Unkraut, das Zählen von Früchten(Computer Vision in der Landwirtschaft) und die Überwachung der Gesundheit von Pflanzen(KI in der Landwirtschaft).
  6. Fertigung: Einsatz in der Qualitätskontrolle durch Erkennung von Produktfehlern an Montagelinien(Qualitätsprüfung in der Fertigung), Gewährleistung der Sicherheit durch Überwachung von Gefahrenbereichen und Automatisierung von Roboteraufgaben.

Tools und Schulungen

Für die Entwicklung und den Einsatz von Objekterkennungsmodellen sind verschiedene Tools und Techniken erforderlich. Beliebte Deep-Learning-Frameworks wie PyTorch und TensorFlow liefern die grundlegenden Bibliotheken. Computer-Vision-Bibliotheken wie OpenCV bieten wesentliche Bildverarbeitungsfunktionen.

Ultralytics bietet hochmoderne Ultralytics YOLO-Modelle, einschließlich YOLOv8 und YOLO11, die für Geschwindigkeit und Genauigkeit optimiert sind. Die Ultralytics HUB-Plattform vereinfacht den Arbeitsablauf weiter und bietet Tools für die Verwaltung von Datensätzen, das Training benutzerdefinierter Modelle, die Abstimmung von Hyperparametern und die Erleichterung der Modellbereitstellung. Eine effektive Modellschulung profitiert oft von Strategien zur Datenerweiterung und Techniken wie dem Transfer-Lernen unter Verwendung von vortrainierten Gewichten aus Datensätzen wie ImageNet.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert