Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Backbone

Entdecken Sie die Rolle von Backbones im Deep Learning, erkunden Sie Top-Architekturen wie ResNet & ViT und lernen Sie ihre realen KI-Anwendungen kennen.

Ein Backbone ist eine Kernkomponente eines Deep-Learning-Modells, insbesondere in der Computer Vision (CV). Es fungiert als das primäre Netzwerk zur Merkmalsextraktion, das dazu dient rohe Eingabedaten wie ein Bild in eine Reihe von High-Level-Merkmalen umzuwandeln. Diese Merkmalskarten erfassen wesentliche Muster wie Kanten, Texturen und Formen. Diese reichhaltige Darstellung wird dann von nachfolgenden Teilen des Netzes verwendet, um Aufgaben wie Objekterkennung, Bildsegmentierung oder Bildklassifizierung. Das Backbone ist die Grundlage für ein neuronalen Netzes (NN), das lernt, die die grundlegenden visuellen Elemente eines Bildes zu "sehen".

Wie Backbones funktionieren

Typischerweise ist ein Backbone ein tiefes Faltungsneuronales Netzwerk (CNN) das auf einem großen Klassifizierungsdatensatz vortrainiert wurde, wie z. B. ImageNet. Dieses Vortraining, eine Form des Form des Transfer-Lernens, ermöglicht es dem Netz, eine umfangreiche Bibliothek allgemeiner visueller Merkmale zu erlernen. Bei der Entwicklung eines Modells für eine neue, spezifische Aufgabe verwenden die Entwickler oft ein vortrainiertes Grundgerüst, anstatt bei Null anzufangen. Dieser Ansatz verkürzt die Zeit, die für das benutzerdefinierte Modelle und reduziert die Datenanforderungen, was häufig was zu einer besseren Leistung führt. Die vom Backbone extrahierten Merkmale werden dann an den "Hals" und "Kopf" des Netzes weitergeleitet, die eine weitere Verfeinerung vornehmen und die endgültige Ausgabe erzeugen. Die Wahl des Backbone ist oft ein Kompromiss zwischen Genauigkeit, Modellgröße und Inferenzlatenz, einem entscheidenden Faktor für Erreichen von Echtzeit-Leistung.

Der folgende Code zeigt, wie eine vortrainierte Ultralytics YOLO11 Modell, das ein effizientes Backbone enthält, geladen und zur Inferenz auf ein Bild verwendet werden kann.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model. Its architecture includes a powerful backbone.
model = YOLO("yolo11n.pt")

# Run inference. The backbone processes the image to extract features for detection.
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Gängige Backbone-Architekturen

Das Design von Backbones hat sich erheblich weiterentwickelt, wobei jede neue Architektur Verbesserungen bei Leistung und Effizienz bietet. Effizienz. Einige der einflussreichsten Backbone-Architekturen sind:

  • Residuale Netzwerke (ResNet): Eingeführt von Microsoft Research, verwenden ResNet-Modelle "Sprungverbindungen", um das Training von viel tieferen Netzen zu ermöglichen, indem das Problem des verschwindenden Gradienten gemildert wird. Problem.
  • EfficientNet: Diese von Google AI entwickelte Modellfamilie eine zusammengesetzte Skalierungsmethode, die Tiefe, Breite und Auflösung des Netzwerks gleichmäßig ausbalanciert, um Modelle zu erstellen, die die sowohl hochpräzise als auch rechnerisch effizient sind.
  • Vision Transformer (ViT): Diese Architektur adaptiert das sehr erfolgreiche Transformer-Modell aus der natürlichen Sprachverarbeitung (NLP) für Bildverarbeitungsaufgaben. ViTs verarbeiten Bilder als Sequenzen von Flecken und nutzen Selbstaufmerksamkeit, um den globalen Kontext zu erfassen. Dies ist eine Abkehr von den lokalen rezeptiven Feldern herkömmlicher CNNs.
  • CSPNet (Cross Stage Partial Network): Wie in der ursprünglichen Originalpapier beschrieben, verbessert diese Architektur die Lerneffizienz durch Partitionierung von Merkmalskarten zur Verringerung von Berechnungsengpässen. Sie ist eine Schlüsselkomponente in vielen Ultralytics YOLO Modellen.

Backbone vs. Head und Neck

In modernen Architekturen zur Objekterkennung ist das Modell in der Regel in drei Hauptteile unterteilt:

  1. Grundgerüst: Als Grundlage dient es dazu, Merkmalskarten in verschiedenen Maßstäben aus dem Eingabebild zu extrahieren. Bild.
  2. Nacken: Diese Komponente verbindet die Wirbelsäule mit dem Kopf. Sie verfeinert und aggregiert die Merkmale aus Oftmals werden Informationen aus verschiedenen Schichten kombiniert, um eine umfassendere Darstellung zu erhalten. Ein gängiges Beispiel ist das Merkmalspyramidennetzwerk (FPN).
  3. Detektionskopf: Dies ist der letzte Teil des Netzwerks. Er übernimmt die verfeinerten Merkmale aus dem Hals und führt die Hauptaufgabe aus, wie die Vorhersage der Bounding Boxes, Klassenbezeichnungen und Vertrauenswerte für jedes Objekt.

Das Backbone ist also der grundlegende Baustein des gesamten Modells. Sie können eine Vielzahl von YOLO vergleichen, um zu sehen, wie sich verschiedene Architekturentscheidungen Leistung auswirken.

Anwendungsfälle in der Praxis

Backbones sind wesentliche Komponenten in unzähligen KI-Anwendungen in verschiedenen Branchen:

  1. Autonome Fahrzeuge: Unter selbstfahrenden Autos verarbeiten robuste Backbones wie ResNet oder EfficientNet-Varianten Bilder von Kameras verarbeiten, um andere Fahrzeuge, Fußgänger und Verkehrssignale detect und zu classify . Verkehrssignale. Diese Merkmalsextraktion ist entscheidend für die Navigation und Entscheidungsfindung des Fahrzeugs, wie wie die von Unternehmen wie Waymo entwickelten Systeme zeigen.
  2. Medizinische Bildanalyse: Bei KI-Lösungen im Gesundheitswesen werden Backbones verwendet um medizinische Scans wie Röntgenaufnahmen und MRTs zu analysieren. So kann ein Backbone beispielsweise Merkmale aus einem Röntgenbild der Brust extrahieren, um Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um potenzielle Tumore zu finden, wie in der Studie von Radiologie: Künstliche Intelligenz. Dies hilft Radiologen dabei schnellere und genauere Diagnosen zu stellen, und Modelle wie YOLO11 können für spezielle Aufgaben wie die Tumorerkennung.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten