Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Backbone

Entdecken Sie die Rolle von Backbones im Deep Learning, erkunden Sie Top-Architekturen wie ResNet & ViT und lernen Sie ihre realen KI-Anwendungen kennen.

Ein Backbone ist eine Kernkomponente eines Deep-Learning-Modells, insbesondere in der Computer Vision (CV). Er dient als primäres Merkmalsextraktions-Netzwerk. Seine Hauptaufgabe ist es, Rohdaten, wie z. B. ein Bild, zu nehmen und sie in eine Reihe von High-Level-Merkmalen oder Feature Maps zu transformieren, die für nachgelagerte Aufgaben wie Objekterkennung, Bildsegmentierung oder Klassifizierung verwendet werden können. Sie können sich den Backbone als den Teil des neuronalen Netzwerks (NN) vorstellen, der lernt, die grundlegenden Muster – wie Kanten, Texturen, Formen und Objekte – innerhalb eines Bildes zu "sehen" und zu verstehen.

Wie Backbones funktionieren

Das Backbone ist typischerweise ein tiefes Convolutional Neural Network (CNN), das auf einem grossen Bildklassifizierungsdatensatz wie ImageNet vortrainiert wurde. Dieser Vortrainingsprozess, eine Form des Transfer Learning, lehrt das Netzwerk, eine riesige Bibliothek allgemeiner visueller Merkmale zu erkennen. Beim Aufbau eines Modells für eine neue Aufgabe verwenden Entwickler oft diese vortrainierten Backbones, anstatt von Grund auf neu zu beginnen. Dieser Ansatz reduziert die Trainingszeit und die Menge der benötigten gelabelten Daten erheblich und verbessert oft die Modellleistung. Die vom Backbone extrahierten Merkmale werden dann an den "Neck" und den "Head" des Netzwerks weitergeleitet, die weitere Verarbeitungen durchführen und die endgültige Ausgabe generieren. Die Wahl des Backbones beinhaltet oft einen Kompromiss zwischen Genauigkeit, Modellgrösse und Inferenzlatenz, was entscheidend ist, um Echtzeitleistung zu erzielen.

Gängige Backbone-Architekturen

Das Design von Backbones hat sich im Laufe der Jahre weiterentwickelt, wobei jede neue Architektur Verbesserungen in Bezug auf Effizienz und Leistung bietet. Einige der einflussreichsten Backbone-Architekturen sind:

  • Residuale Netzwerke (ResNet): Die von Microsoft Research eingeführten ResNet-Modelle verwenden "Sprungverbindungen", damit das Netz Restfunktionen erlernen kann. Diese Innovation ermöglichte es, viel tiefere Netze zu trainieren, ohne unter dem Problem des verschwindenden Gradienten zu leiden.
  • EfficientNet: Diese von Google AI entwickelte Familie von Modellen verwendet eine Compound-Scaling-Methode, um die Netzwerktiefe, -breite und -auflösung gleichmäßig auszubalancieren. Dies führt zu Modellen, die sowohl hochgenau als auch recheneffizient sind.
  • Vision Transformer (ViT): ViTs adaptieren die erfolgreiche Transformer-Architektur aus dem NLP auf das Sehen. Sie behandeln ein Bild als eine Sequenz von Flecken und nutzen die Selbstaufmerksamkeit, um den globalen Kontext zu erfassen, und bieten damit einen anderen Ansatz als die lokalen rezeptiven Felder der CNNs.
  • CSPNet (Cross Stage Partial Network): Diese in ihrem Original-Paper beschriebene Architektur verbessert das Lernen durch die Integration von Feature Maps vom Anfang und Ende einer Netzwerkstufe, was die Gradientenpropagation verbessert und rechnerische Engpässe reduziert. Es ist eine Schlüsselkomponente in vielen Ultralytics YOLO-Modellen.

Backbone vs. Head und Neck

In einer typischen Objekterkennungsarchitektur besteht das Modell aus drei Hauptteilen:

  1. Backbone: Seine Rolle ist die Feature-Extraktion aus dem Eingabebild, wodurch Feature Maps in verschiedenen Maßstäben erstellt werden.
  2. Neck: Diese Komponente befindet sich zwischen dem Backbone und dem Head. Sie verfeinert und aggregiert die Feature Maps aus dem Backbone und kombiniert oft Features aus verschiedenen Schichten, um eine reichhaltigere Darstellung zu erstellen. Ein gängiges Beispiel ist das Feature Pyramid Network (FPN).
  3. Detektionskopf: Dies ist der letzte Teil des Netzes, der die verfeinerten Merkmale des Halses aufnimmt und die eigentliche Erkennungsaufgabe durchführt. Er sagt die Bounding Boxes, die Klassenbezeichnungen und die Vertrauenswerte für die Objekte im Bild voraus.

Das Backbone ist daher das Fundament, auf dem der Rest des Erkennungsmodells aufbaut. Modelle wie YOLOv8 und YOLO11 integrieren leistungsstarke Backbones, um eine qualitativ hochwertige Merkmalsextraktion zu gewährleisten, die für ihre hochmoderne Leistung bei verschiedenen Aufgaben unerlässlich ist. Sie können verschiedene YOLO-Modellvergleiche durchführen, um zu sehen, wie sich architektonische Entscheidungen auf die Leistung auswirken.

Anwendungsfälle in der Praxis

Backbones sind grundlegende Komponenten in unzähligen KI-Anwendungen:

  1. Autonomes Fahren: Systeme in selbstfahrenden Autos sind in hohem Maße auf robuste Backbones (z. B. ResNet- oder EfficientNet-Varianten) angewiesen, um Eingaben von Kameras und LiDAR-Sensoren zu verarbeiten. Die extrahierten Merkmale ermöglichen die Erkennung und Klassifizierung von Fahrzeugen, Fußgängern, Ampeln und Fahrspuren, was für eine sichere Navigation und Entscheidungsfindung von entscheidender Bedeutung ist, wie die von Unternehmen wie Waymo entwickelten Systeme zeigen.
  2. Medizinische Bildanalyse: Bei KI-Lösungen im Gesundheitswesen werden Backbones zur Analyse medizinischer Scans wie Röntgenaufnahmen, CTs oder MRTs verwendet. Ein Backbone wie DenseNet kann beispielsweise Merkmale aus einer Röntgenaufnahme der Brust extrahieren, um Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um potenzielle Tumore zu identifizieren(relevante Forschung in Radiology: AI). Dies hilft Radiologen bei der Diagnose und Behandlungsplanung. Ultralytics-Modelle wie YOLO11 können für Aufgaben wie die Tumorerkennung angepasst werden, indem sie leistungsstarke Backbones nutzen.

Sie können den Prozess der Nutzung leistungsstarker Backbones für Ihre eigenen Projekte vereinfachen, indem Sie Plattformen wie Ultralytics HUB verwenden, die die Verwaltung von Datensätzen und das Trainieren von benutzerdefinierten Modellen vereinfachen.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert