Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!
Die Objekterkennung ist eine grundlegende Aufgabe der Computer Vision (CV), bei der es darum geht, das Vorhandensein, den Ort und die Art eines oder mehrerer Objekte in einem Bild oder Video zu erkennen. Im Gegensatz zur Bildklassifizierung, bei der einem gesamten Bild ein einziges Etikett zugewiesen wird (z. B. "Katze"), wird bei der Objekterkennung jedes Objekt mithilfe eines Begrenzungsrahmens genau umrissen und ihm ein Klassenetikett zugewiesen (z. B. "Katze" mit den Koordinaten x, y, Breite, Höhe). Diese Fähigkeit ermöglicht es Maschinen, visuelle Szenen mit größerer Granularität zu verstehen, die menschliche visuelle Wahrnehmung besser zu imitieren und komplexere Interaktionen mit der Umgebung zu ermöglichen. Es handelt sich um eine Kerntechnologie, die vielen modernen Anwendungen der künstlichen Intelligenz (KI) zugrunde liegt.
Bei der Objekterkennung werden in der Regel zwei Kernaufgaben kombiniert: Objektklassifizierung (Bestimmung, "welches" Objekt vorhanden ist) und Objektlokalisierung (Bestimmung, "wo" sich das Objekt befindet, in der Regel über Bounding-Box-Koordinaten). Moderne Objekterkennungssysteme stützen sich stark auf Deep Learning (DL), insbesondere auf Convolutional Neural Networks (CNNs). Diese Netze werden auf großen, mit Anmerkungen versehenen Datensätzen trainiert, wie z. B. dem beliebten COCO-Datensatz oder Open Images V7, um visuelle Merkmale und Muster zu lernen, die mit verschiedenen Objektklassen verbunden sind.
Während des Betriebs (bekannt als Inferenz) verarbeitet das trainierte Modell ein Eingabebild oder Videobild. Es gibt eine Liste potenzieller Objekte aus, die jeweils durch einen Begrenzungsrahmen (Bounding Box), eine vorhergesagte Klassenbezeichnung (z. B. "Auto", "Person", "Hund") und einen Konfidenzwert, der die Sicherheit des Modells bei der Erkennung angibt, dargestellt werden. Techniken wie Non-Maximum Suppression (NMS) werden häufig zur Verfeinerung dieser Ergebnisse verwendet, indem redundante, sich überschneidende Boxen für dasselbe Objekt entfernt werden. Die Leistung dieser Modelle wird in der Regel anhand von Metriken wie Intersection over Union (IoU) und mean Average Precision (mAP) bewertet.
Es ist wichtig, die Objekterkennung von anderen verwandten Aufgaben der Computer Vision zu unterscheiden:
Modelle zur Objekterkennung lassen sich im Allgemeinen in zwei Hauptkategorien einteilen, die sich in erster Linie durch ihren Ansatz und den Kompromiss zwischen Geschwindigkeit und Genauigkeit unterscheiden:
Die Objekterkennung ist eine Grundlagentechnologie für zahlreiche Anwendungen in verschiedenen Branchen:
Für die Entwicklung und den Einsatz von Objekterkennungsmodellen sind verschiedene Tools und Techniken erforderlich. Beliebte Deep-Learning-Frameworks wie PyTorch und TensorFlow liefern die grundlegenden Bibliotheken. Computer-Vision-Bibliotheken wie OpenCV bieten wesentliche Bildverarbeitungsfunktionen.
Ultralytics bietet hochmoderne Ultralytics YOLO-Modelle, einschließlich YOLOv8 und YOLO11, die für Geschwindigkeit und Genauigkeit optimiert sind. Die Ultralytics HUB-Plattform vereinfacht den Arbeitsablauf weiter und bietet Tools für die Verwaltung von Datensätzen, das Training benutzerdefinierter Modelle, die Abstimmung von Hyperparametern und die Erleichterung der Modellbereitstellung. Eine effektive Modellschulung profitiert oft von Strategien zur Datenerweiterung und Techniken wie dem Transfer-Lernen unter Verwendung von vortrainierten Gewichten aus Datensätzen wie ImageNet.