Backbone
Entdecken Sie die Rolle von Backbones im Deep Learning, erkunden Sie Top-Architekturen wie ResNet & ViT und lernen Sie ihre realen KI-Anwendungen kennen.
Ein Backbone ist eine Kernkomponente eines
Deep-Learning-Modells, insbesondere in der
Computer Vision (CV). Es fungiert als das
primäre Netzwerk zur Merkmalsextraktion, das dazu dient
rohe Eingabedaten wie ein Bild in eine Reihe von High-Level-Merkmalen umzuwandeln. Diese
Merkmalskarten erfassen wesentliche Muster wie Kanten,
Texturen und Formen. Diese reichhaltige Darstellung wird dann von nachfolgenden Teilen des Netzes verwendet, um Aufgaben wie
Objekterkennung,
Bildsegmentierung oder
Bildklassifizierung. Das Backbone ist die Grundlage für ein
neuronalen Netzes (NN), das lernt, die
die grundlegenden visuellen Elemente eines Bildes zu "sehen".
Wie Backbones funktionieren
Typischerweise ist ein Backbone ein tiefes
Faltungsneuronales Netzwerk (CNN)
das auf einem großen Klassifizierungsdatensatz vortrainiert wurde, wie z. B.
ImageNet. Dieses Vortraining, eine Form des
Form des Transfer-Lernens, ermöglicht es dem Netz, eine
umfangreiche Bibliothek allgemeiner visueller Merkmale zu erlernen. Bei der Entwicklung eines Modells für eine neue, spezifische Aufgabe verwenden die Entwickler oft ein
vortrainiertes Grundgerüst, anstatt bei Null anzufangen. Dieser Ansatz verkürzt die Zeit, die für das
benutzerdefinierte Modelle und reduziert die Datenanforderungen, was häufig
was zu einer besseren Leistung führt. Die vom Backbone extrahierten Merkmale werden dann an den "Hals" und
"Kopf" des Netzes weitergeleitet, die eine weitere Verfeinerung vornehmen und die endgültige Ausgabe erzeugen. Die Wahl des
Backbone ist oft ein Kompromiss zwischen Genauigkeit, Modellgröße und
Inferenzlatenz, einem entscheidenden Faktor für
Erreichen von
Echtzeit-Leistung.
Der folgende Code zeigt, wie eine vortrainierte
Ultralytics YOLO11 Modell, das ein effizientes
Backbone enthält, geladen und zur Inferenz auf ein Bild verwendet werden kann.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")
# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Gängige Backbone-Architekturen
Das Design von Backbones hat sich erheblich weiterentwickelt, wobei jede neue Architektur Verbesserungen bei Leistung und Effizienz bietet.
Effizienz. Einige der einflussreichsten Backbone-Architekturen sind:
-
Residuale Netzwerke (ResNet):
Eingeführt von Microsoft Research, verwenden ResNet-Modelle
"Sprungverbindungen", um das Training von viel tieferen Netzen zu ermöglichen, indem das Problem des verschwindenden Gradienten gemildert wird.
Problem.
-
EfficientNet: Diese von Google AI entwickelte Modellfamilie
eine zusammengesetzte Skalierungsmethode, die Tiefe, Breite und Auflösung des Netzwerks gleichmäßig ausbalanciert, um Modelle zu erstellen, die
die sowohl hochpräzise als auch rechnerisch effizient sind.
-
Vision Transformer (ViT):
Diese Architektur adaptiert das sehr erfolgreiche
Transformer-Modell aus der
natürlichen Sprachverarbeitung (NLP)
für Bildverarbeitungsaufgaben. ViTs verarbeiten Bilder als Sequenzen von Flecken und nutzen
Selbstaufmerksamkeit, um den globalen Kontext zu erfassen.
Dies ist eine Abkehr von den lokalen rezeptiven Feldern herkömmlicher CNNs.
-
CSPNet (Cross Stage Partial Network): Wie in der ursprünglichen
Originalpapier beschrieben, verbessert diese Architektur die Lerneffizienz durch
Partitionierung von Merkmalskarten zur Verringerung von Berechnungsengpässen. Sie ist eine Schlüsselkomponente in vielen Ultralytics YOLO
Modellen.
Backbone vs. Head und Neck
In modernen
Architekturen zur Objekterkennung ist das
Modell in der Regel in drei Hauptteile unterteilt:
-
Grundgerüst: Als Grundlage dient es dazu, Merkmalskarten in verschiedenen Maßstäben aus dem Eingabebild zu extrahieren.
Bild.
-
Nacken: Diese Komponente verbindet die Wirbelsäule mit dem Kopf. Sie verfeinert und aggregiert die Merkmale aus
Oftmals werden Informationen aus verschiedenen Schichten kombiniert, um eine umfassendere Darstellung zu erhalten. Ein gängiges Beispiel
ist das Merkmalspyramidennetzwerk (FPN).
-
Detektionskopf: Dies ist der letzte
Teil des Netzwerks. Er übernimmt die verfeinerten Merkmale aus dem Hals und führt die Hauptaufgabe aus, wie die Vorhersage der
Bounding Boxes, Klassenbezeichnungen und Vertrauenswerte
für jedes Objekt.
Das Backbone ist also der grundlegende Baustein des gesamten Modells. Sie können eine Vielzahl von
YOLO vergleichen, um zu sehen, wie sich verschiedene Architekturentscheidungen
Leistung auswirken.
Anwendungsfälle in der Praxis
Backbones sind wesentliche Komponenten in unzähligen KI-Anwendungen in verschiedenen Branchen:
-
Autonome Fahrzeuge: Unter
selbstfahrenden Autos verarbeiten robuste Backbones wie ResNet
oder EfficientNet-Varianten Bilder von Kameras verarbeiten, um andere Fahrzeuge, Fußgänger und Verkehrssignale detect und zu classify .
Verkehrssignale. Diese Merkmalsextraktion ist entscheidend für die Navigation und Entscheidungsfindung des Fahrzeugs, wie
wie die von Unternehmen wie Waymo entwickelten Systeme zeigen.
-
Medizinische Bildanalyse:
Bei KI-Lösungen im Gesundheitswesen werden Backbones verwendet
um medizinische Scans wie Röntgenaufnahmen und MRTs zu analysieren. So kann ein Backbone beispielsweise Merkmale aus einem Röntgenbild der Brust extrahieren, um
Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um potenzielle Tumore zu finden, wie in der Studie von
Radiologie: Künstliche Intelligenz. Dies hilft Radiologen dabei
schnellere und genauere Diagnosen zu stellen, und Modelle wie YOLO11 können für spezielle Aufgaben wie die
Tumorerkennung.