Entdecken Sie die Leistungsfähigkeit der Objekterkennung - identifizieren und lokalisieren Sie Objekte in Bildern oder Videos mit modernsten Modellen wie YOLO. Erforschen Sie Anwendungen aus der realen Welt!
Die Objekterkennung ist eine zentrale Fähigkeit der Computer Vision (CV), die es Software Systeme nicht nur erkennen können, was ein Bild darstellt, sondern auch bestimmte Objekte darin lokalisieren können. Während Standardklassifizierung dem gesamten visuellen Input ein einziges Label zuweist, bietet die Objekterkennung ein detaillierteres ein detaillierteres Verständnis, indem ein Begrenzungsrahmen um jede identifizierte Einheit vorhersagt, begleitet von einer spezifischen Klassenbezeichnung und einem Vertrauenswert. Diese Technologie bildet die sensorische Grundlage für fortschrittliche künstliche Intelligenz (KI) und ermöglicht Maschinen die Komplexität der physischen Welt wahrnehmen, interpretieren und mit ihr interagieren können. Von der automatischen Qualitätskontrolle Qualitätskontrolle in Fabriken bis hin zu fortschrittlicher Überwachung - sie verwandelt unstrukturierte Pixeldaten in verwertbare Erkenntnisse.
Moderne Detektoren basieren hauptsächlich auf Deep Learning (DL) Architekturen, insbesondere Convolutional Neural Networks (CNNs), um räumliche Hierarchien von Merkmalen zu lernen. Eine typische Architektur besteht aus einem Backbone, wie ResNet oder CSPNet, das die wesentlichen wesentliche visuelle Merkmale aus dem Eingabebild extrahiert. Diese Merkmale werden dann von einem Erkennungskopf verarbeitet, der die Koordinaten für Bounding Boxes und die Wahrscheinlichkeit der Klassenzugehörigkeit ausgibt.
Um eine hohe Leistung zu erzielen, werden die Modelle auf umfangreichen markierten Datensammlungen wie dem COCO , der einen Standard für das Benchmarking darstellt. Während der Inferenz, Algorithmen oft mehrere sich überschneidende Boxen für dasselbe Objekt erzeugen. Techniken wie Nicht-Maximum-Unterdrückung (NMS) werden angewendet, um diese Redundanzen herauszufiltern und nur die Box mit dem höchsten Vertrauen und der besten Schnittmenge über Union (IoU) mit der Bodenwahrheit.
Modelle werden im Allgemeinen in zwei Kategorien eingeteilt:
Es ist von entscheidender Bedeutung, die Objekterkennung von ähnlichen Computer Vision Aufgaben zu unterscheiden.
Die Objekterkennung ist der Motor für viele transformative Technologien in verschiedenen Branchen.
Der folgende Codeschnipsel demonstriert, wie die Objekterkennung unter Verwendung eines vortrainierten YOLO11 mit der
ultralytics Paket. Dieser einfache Arbeitsablauf lädt ein Modell und führt Inferenzen auf einem Bild aus, um
Objekten wie Bussen und Menschen.
from ultralytics import YOLO
# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")
# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()