Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Detection Head

Erfahren Sie, wie ein Erkennungskopf die Echtzeit-Objekterkennung ermöglicht. Entdecken Sie seine Rolle in Ultralytics für die hochpräzise Vorhersage von Begrenzungsrahmen und Beschriftungen.

Ein Erkennungskopf fungiert als letzte Entscheidungsebene in einer neuronalen Netzwerkarchitektur zur Objekterkennung . Während die früheren Ebenen des Modells für das Verstehen der Formen, Texturen und Merkmale innerhalb eines Bildes zuständig sind, ist der Erkennungskopf die spezifische Komponente, die diese Informationen interpretiert, um genau vorherzusagen, welche Objekte vorhanden sind und wo sie sich befinden. Er wandelt die abstrakten, hochrangigen Daten, die vom Merkmalsextraktor erzeugt werden, in verwertbare Ergebnisse um und gibt in der Regel eine Reihe von Begrenzungsrahmen aus, die identifizierte Objekte zusammen mit den entsprechenden Klassenbezeichnungen und Konfidenzwerten umschließen.

Unterscheidung zwischen Kopf, Wirbelsäule und Hals

Um die Funktion eines Detektorkopfes vollständig zu verstehen, ist es hilfreich, sich moderne Detektoren als aus drei Hauptstufen bestehend vorzustellen, von denen jede einen bestimmten Zweck in der Computer-Vision-Pipeline (CV) erfüllt:

  • Backbone: Dies ist der erste Teil des Netzwerks, häufig ein Convolutional Neural Network (CNN) wie ResNet oder CSPNet. Es verarbeitet das rohe Eingangsbild, um Feature-Maps zu erstellen, die visuelle Muster darstellen.
  • Hals: Der Hals befindet sich zwischen Wirbelsäule und Kopf und verfeinert und kombiniert Merkmale aus verschiedenen Maßstäben. Architekturen wie das Feature Pyramid Network (FPN) stellen sicher, dass das Modell detect unterschiedlicher Größe detect kann, indem es den Kontext aggregiert.
  • Kopf: Die letzte Komponente, die die verfeinerten Merkmale aus dem Hals verarbeitet. Sie führt die eigentliche Aufgabe der Klassifizierung (Was ist das?) und Regression (Wo ist es?) durch.

Entwicklung: Ankerbasiert vs. ankerfrei

Das Design von Detektionsköpfen hat sich erheblich weiterentwickelt, um Geschwindigkeit und Genauigkeit zu verbessern, insbesondere mit dem Übergang von traditionellen Methoden zu modernen Echtzeit-Inferenzmodellen.

  • Ankerbasierte Köpfe: Herkömmliche einstufige Objektdetektoren basierten auf vordefinierten Ankerboxen– festen Referenzformen in verschiedenen Größen. Der Kopf prognostizierte, wie stark diese Anker gedehnt oder verschoben werden mussten, um sich an das Objekt anzupassen. Dieser Ansatz wird in der Grundlagenforschung zu Faster R-CNN detailliert beschrieben.
  • Ankerfreie Köpfe: Modernste Modelle, darunter das neueste YOLO26, verwenden ankerfreie Detektoren. Diese Köpfe sagen Objektzentren und -abmessungen direkt aus den Pixeln in den Merkmalskarten voraus, wodurch die manuelle Ankeranpassung entfällt . Dies vereinfacht die Architektur und verbessert die Fähigkeit des Modells, auf neue Objektformen zu verallgemeinern, eine Technik, die häufig mit vollständig konvolutioneller einstufiger Objekterkennung (FCOS) in Verbindung gebracht wird.

Anwendungsfälle in der Praxis

Die Präzision des Detektionskopfes ist entscheidend für den Einsatz künstlicher Intelligenz (KI) in sicherheitskritischen und industriellen Umgebungen. Mit Hilfe der Ultralytics können Anwender Daten einfach annotieren und diese spezialisierten Köpfe trainieren .

  • Autonomes Fahren: In der KI für Automobile ist der Erkennungskopf dafür zuständig, in Echtzeit zwischen Fußgängern, Ampeln und anderen Fahrzeugen zu unterscheiden. Ein hochgradig optimierter Kopf stellt sicher, dass die Inferenzlatenz niedrig genug bleibt, damit das Fahrzeug sofort reagieren kann.
  • Medizinische Diagnostik: Bei der medizinischen Bildanalyse werden Detektionsköpfe feinabgestimmt, um Anomalien wie Tumore in MRT-Scans zu lokalisieren. Der Regressionszweig muss äußerst genau sein, um die genauen Grenzen einer Läsion zu umreißen und Ärzte bei Gesundheitslösungen zu unterstützen.

Code-Beispiel

Das folgende Beispiel zeigt, wie man eine YOLO26 Modell und überprüft die Ausgabe seines Erkennungskopfes. Wenn die Inferenz läuft, verarbeitet der Kopf das Bild und gibt das endgültige Ergebnis zurück. boxes mit Koordinaten und Klassen-IDs.

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")

# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
    # Print the bounding box coordinates and the predicted class
    print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")

Diese Interaktion verdeutlicht, wie der Detektionskopf komplexe neuronale Netzwerkaktivierungen in lesbare Daten übersetzt , die Entwickler für nachgelagerte Aufgaben wie Objektverfolgung oder -zählung verwenden können.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten