Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!
Die Objekterkennung ist eine grundlegende Funktion der Computervision (CV), die es Softwaresystemen ermöglicht, bestimmte Elemente in visuellen Daten zu identifizieren und zu lokalisieren. Während einfachere Technologien möglicherweise nur ein ganzes Bild kennzeichnen, bietet die Objekterkennung ein detailliertes Verständnis, indem sie die Existenz, Position und Klasse mehrerer Objekte gleichzeitig vorhersagt. Dieser Prozess führt zu einer Umrandung jedes identifizierten Objekts, die mit einer Bezeichnung (z. B. „Auto“, „Person“) und einer Konfidenzbewertung versehen ist, die die Sicherheit des Modells angibt. Durch die Überbrückung der Lücke zwischen rohen Pixeln und aussagekräftigen semantischen Informationen dient diese Technologie als sensorische Grundlage für moderne künstliche Intelligenz (KI).
Moderne Detektoren basieren in erster Linie auf Deep-Learning-Architekturen (DL), insbesondere Convolutional Neural Networks (CNNs), um Merkmale aus Bildern zu extrahieren. Der Prozess umfasst ein Modell, das während einer Trainingsphase räumliche Hierarchien von Mustern – von Kanten und Texturen bis hin zu komplexen Formen – anhand umfangreicher annotierter Sammlungen wie dem COCO lernt.
Während der Inferenz analysiert das Modell ein Eingabebild und gibt Koordinaten für potenzielle Objekte aus. Um die Genauigkeit zu gewährleisten, wenden Algorithmen die Non-Maximum Suppression (NMS) an, um überlappende Boxen zu eliminieren und nur die beste Vorhersage basierend auf der Intersection over Union (IoU) -Metrik beizubehalten. Die Weiterentwicklung dieser Modelle hat zu Architekturen wie YOLO26 geführt, die sowohl hinsichtlich Geschwindigkeit als auch Präzision optimiert sind und eine Echtzeit-Inferenz auf Edge-Geräten ermöglichen.
Es ist hilfreich, die Objekterkennung von anderen Computer-Vision-Aufgaben zu unterscheiden, um ihren spezifischen Nutzen zu verstehen:
Die Objekterkennung ist in der heutigen Technologielandschaft allgegenwärtig und treibt die Automatisierung in verschiedenen Branchen voran.
Der folgende Code zeigt, wie die Objekterkennung mit dem ultralytics Paket. Dieses
Beispiel lädt die neueste YOLO26-Modell und führt Inferenz auf
einem Bild durch, um Objekte zu identifizieren und zu lokalisieren.
from ultralytics import YOLO
# Load the YOLO26 nano model (recommended for speed and accuracy)
model = YOLO("yolo26n.pt")
# Run inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results showing bounding boxes and class labels
results[0].show()
Um ein benutzerdefiniertes Erkennungssystem zu erstellen, beginnen Entwickler in der Regel mit einem vortrainierten Modell und passen es an einen bestimmten Datensatz an. Ultralytics eine Vielzahl von Erkennungsdatensätzen, die von allgemeinen Objekten in Open Images v7 bis hin zu spezialisierten Datensätzen wie Global Wheat 2020 für die Landwirtschaft oder Brain Tumor Detection für das Gesundheitswesen reichen. Die Sicherstellung hochwertiger Trainingsdaten ist entscheidend, um Modellverzerrungen zu minimieren und eine hohe mittlere durchschnittliche Genauigkeit (mAP) zu erreichen.