Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Objekterkennung

Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!

Die Objekterkennung ist eine grundlegende Funktion der Computervision (CV), die es Softwaresystemen ermöglicht, bestimmte Elemente in visuellen Daten zu identifizieren und zu lokalisieren. Während einfachere Technologien möglicherweise nur ein ganzes Bild kennzeichnen, bietet die Objekterkennung ein detailliertes Verständnis, indem sie die Existenz, Position und Klasse mehrerer Objekte gleichzeitig vorhersagt. Dieser Prozess führt zu einer Umrandung jedes identifizierten Objekts, die mit einer Bezeichnung (z. B. „Auto“, „Person“) und einer Konfidenzbewertung versehen ist, die die Sicherheit des Modells angibt. Durch die Überbrückung der Lücke zwischen rohen Pixeln und aussagekräftigen semantischen Informationen dient diese Technologie als sensorische Grundlage für moderne künstliche Intelligenz (KI).

Wie funktioniert Objekterkennung?

Moderne Detektoren basieren in erster Linie auf Deep-Learning-Architekturen (DL), insbesondere Convolutional Neural Networks (CNNs), um Merkmale aus Bildern zu extrahieren. Der Prozess umfasst ein Modell, das während einer Trainingsphase räumliche Hierarchien von Mustern – von Kanten und Texturen bis hin zu komplexen Formen – anhand umfangreicher annotierter Sammlungen wie dem COCO lernt.

Während der Inferenz analysiert das Modell ein Eingabebild und gibt Koordinaten für potenzielle Objekte aus. Um die Genauigkeit zu gewährleisten, wenden Algorithmen die Non-Maximum Suppression (NMS) an, um überlappende Boxen zu eliminieren und nur die beste Vorhersage basierend auf der Intersection over Union (IoU) -Metrik beizubehalten. Die Weiterentwicklung dieser Modelle hat zu Architekturen wie YOLO26 geführt, die sowohl hinsichtlich Geschwindigkeit als auch Präzision optimiert sind und eine Echtzeit-Inferenz auf Edge-Geräten ermöglichen.

Unterscheidung verwandter Begriffe aus dem Bereich Computer Vision

Es ist hilfreich, die Objekterkennung von anderen Computer-Vision-Aufgaben zu unterscheiden, um ihren spezifischen Nutzen zu verstehen:

  • Bildklassifizierung: Die Klassifizierung beantwortet die Frage „Was ist auf diesem Bild zu sehen?“ indem sie dem gesamten Bild ein einziges Label zuweist. Im Gegensatz zur Erkennung liefert sie keine Standortdaten und zählt auch keine einzelnen Instanzen.
  • Instanzsegmentierung: Während die Erkennung einen rechteckigen Rahmen zeichnet, identifiziert die Segmentierung die genauen Pixelgrenzen eines Objekts und erstellt eine präzise Maske. Dies ist nützlich, wenn die genaue Form entscheidend ist, beispielsweise bei der medizinischen Bildanalyse.
  • Objektverfolgung: Dies erweitert die Erkennung auf den zeitlichen Bereich (Video). Einem erkannten Objekt wird eine eindeutige ID zugewiesen, und seine Flugbahn wird über mehrere Frames hinweg verfolgt, was für die Sicherheitsüberwachung von entscheidender Bedeutung ist.

Anwendungsfälle in der Praxis

Die Objekterkennung ist in der heutigen Technologielandschaft allgegenwärtig und treibt die Automatisierung in verschiedenen Branchen voran.

  • Autonome Systeme: Autonome Fahrzeuge sind für eine sichere Navigation in hohem Maße auf Erkennungssysteme angewiesen. Durch die Verarbeitung von Daten aus Kameras und LiDAR können Autos von Unternehmen wie Waymo und Tesla Fußgänger, Verkehrszeichen und andere Fahrzeuge in Millisekunden identifizieren, um Fahrentscheidungen zu treffen.
  • Retail Analytics: Im Bereich der KI im Einzelhandel nutzen Geschäfte die Objekterkennung für die automatisierte Kassenabwicklung und Bestandsverwaltung. Systeme überwachen Regale, um detect Artikel detect oder Einkäufe ohne Kassierer detect – ein Konzept, das durch die Amazon Just Walk Out -Technologie populär wurde.
  • Landwirtschaft: Präzisionslandwirtschaftswerkzeuge nutzen Erkennungstechnologien, um den Gesundheitszustand von Nutzpflanzen zu überwachen. Durch die Identifizierung bestimmter Unkräuter oder Schädlinge auf einem Feld mithilfe von Drohnenbildern können Landwirte selektiv Maßnahmen ergreifen und so den Einsatz von Chemikalien und die Kosten reduzieren.

Beispiel für eine Python

Der folgende Code zeigt, wie die Objekterkennung mit dem ultralytics Paket. Dieses Beispiel lädt die neueste YOLO26-Modell und führt Inferenz auf einem Bild durch, um Objekte zu identifizieren und zu lokalisieren.

from ultralytics import YOLO

# Load the YOLO26 nano model (recommended for speed and accuracy)
model = YOLO("yolo26n.pt")

# Run inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results showing bounding boxes and class labels
results[0].show()

Daten und Schulung

Um ein benutzerdefiniertes Erkennungssystem zu erstellen, beginnen Entwickler in der Regel mit einem vortrainierten Modell und passen es an einen bestimmten Datensatz an. Ultralytics eine Vielzahl von Erkennungsdatensätzen, die von allgemeinen Objekten in Open Images v7 bis hin zu spezialisierten Datensätzen wie Global Wheat 2020 für die Landwirtschaft oder Brain Tumor Detection für das Gesundheitswesen reichen. Die Sicherstellung hochwertiger Trainingsdaten ist entscheidend, um Modellverzerrungen zu minimieren und eine hohe mittlere durchschnittliche Genauigkeit (mAP) zu erreichen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten