Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Objekterkennung

Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!

Die Objekterkennung ist eine zentrale Fähigkeit der Computer Vision (CV), die es Software Systeme nicht nur erkennen können, was ein Bild darstellt, sondern auch bestimmte Objekte darin lokalisieren können. Während Standardklassifizierung dem gesamten visuellen Input ein einziges Label zuweist, bietet die Objekterkennung ein detaillierteres ein detaillierteres Verständnis, indem ein Begrenzungsrahmen um jede identifizierte Einheit vorhersagt, begleitet von einer spezifischen Klassenbezeichnung und einem Vertrauenswert. Diese Technologie bildet die sensorische Grundlage für fortschrittliche künstliche Intelligenz (KI) und ermöglicht Maschinen die Komplexität der physischen Welt wahrnehmen, interpretieren und mit ihr interagieren können. Von der automatischen Qualitätskontrolle Qualitätskontrolle in Fabriken bis hin zu fortschrittlicher Überwachung - sie verwandelt unstrukturierte Pixeldaten in verwertbare Erkenntnisse.

Mechanik der Objekterkennung

Moderne Detektoren basieren hauptsächlich auf Deep Learning (DL) Architekturen, insbesondere Convolutional Neural Networks (CNNs), um räumliche Hierarchien von Merkmalen zu lernen. Eine typische Architektur besteht aus einem Backbone, wie ResNet oder CSPNet, das die wesentlichen wesentliche visuelle Merkmale aus dem Eingabebild extrahiert. Diese Merkmale werden dann von einem Erkennungskopf verarbeitet, der die Koordinaten für Bounding Boxes und die Wahrscheinlichkeit der Klassenzugehörigkeit ausgibt.

Um eine hohe Leistung zu erzielen, werden die Modelle auf umfangreichen markierten Datensammlungen wie dem COCO , der einen Standard für das Benchmarking darstellt. Während der Inferenz, Algorithmen oft mehrere sich überschneidende Boxen für dasselbe Objekt erzeugen. Techniken wie Nicht-Maximum-Unterdrückung (NMS) werden angewendet, um diese Redundanzen herauszufiltern und nur die Box mit dem höchsten Vertrauen und der besten Schnittmenge über Union (IoU) mit der Bodenwahrheit.

Modelle werden im Allgemeinen in zwei Kategorien eingeteilt:

  • Zweistufige Objektdetektoren: Systeme wie Faster R-CNN schlagen zunächst Regionen von Interesse vor und classify sie dann. Sie sind zwar historisch genau, können sie rechenintensiv sein.
  • Einstufige Objektdetektoren: Moderne Architekturen, einschließlich Ultralytics YOLO11, sagen Bounding Boxes und Klassenwahrscheinlichkeiten in einem einzigen Durchgang voraus. Dieser Ansatz ist optimiert für Echtzeit-Inferenz optimiert und bietet ein ideales Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Mit Blick auf die Zukunft entwickelt Ultralytics derzeit YOLO26, das darauf abzielt, die Effizienz der End-to-End-Erkennung weiter zu Effizienz.

Unterscheidung von verwandten CV-Aufgaben

Es ist von entscheidender Bedeutung, die Objekterkennung von ähnlichen Computer Vision Aufgaben zu unterscheiden.

  • Bildklassifizierung: Identifiziert , was in einem Bild vorhanden ist (z. B. "Hund"), aber nicht, wo er sich befindet oder wie viele es gibt.
  • Instanz-Segmentierung: Wie bei der Erkennung werden Objekte lokalisiert, aber anstelle eines Kastens wird eine pixelgenaue Maske erzeugt, die die genaue Form des Objekts umreißt. genaue Form des Objekts.
  • Objektverfolgung: Dies erweitert die Erkennung in den zeitlichen Bereich, indem den erkannten Objekten eine eindeutige ID zugewiesen wird und ihre Flugbahn über Videobildern.

Anwendungsfälle in der Praxis

Die Objekterkennung ist der Motor für viele transformative Technologien in verschiedenen Branchen.

  • Autonome Systeme: In der Automobilbranche, verwenden autonome Fahrzeuge Erkennungsmodelle um Fußgänger, Verkehrsschilder und andere Fahrzeuge in Millisekunden zu erkennen. Führende Unternehmen in diesem Bereich wie Waymo und Tesla Autopilot verlassen sich auf diese Fähigkeiten, um sicher durch komplexe Umgebungen zu navigieren.
  • Medizinische Diagnostik: Unter KI im Gesundheitswesen unterstützen Erkennungsmodelle Radiologen, indem sie auf Röntgenbildern oder CT-Scans interessante Bereiche wie Tumore oder Frakturen hervorheben. Organisationen wie die National Institutes of Health (NIH) erforschen aktiv, wie medizinische Bildanalyse Diagnosefehler Diagnosefehler reduzieren kann.
  • Analytik im Einzelhandel: Läden nutzen KI im Einzelhandel, um Kassiervorgänge zu automatisieren und Inventar zu überwachen. Systeme wie bei Amazon Go nutzen Erkennung, um track , welche Artikel die Kunden aus den Regalen nehmen.

Beispiel für die Umsetzung

Der folgende Codeschnipsel demonstriert, wie die Objekterkennung unter Verwendung eines vortrainierten YOLO11 mit der ultralytics Paket. Dieser einfache Arbeitsablauf lädt ein Modell und führt Inferenzen auf einem Bild aus, um Objekten wie Bussen und Menschen.

from ultralytics import YOLO

# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")

# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten