Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Residual Networks (ResNet)

Entdecken Sie die Leistungsfähigkeit von Residual Networks (ResNet). Erfahren Sie, wie Skip-Verbindungen das Problem des verschwindenden Gradienten lösen und Deep Learning für die Bildverarbeitung ermöglichen.

Residual Networks, allgemein bekannt als ResNets, sind eine spezielle Art von künstlicher neuronaler Netzwerkarchitektur (ANN) , die für das Training extrem tiefer Netzwerke entwickelt wurde. ResNet Microsoft von Forschern bei Microsoft eingeführt und löste einen kritischen Engpass im Deep Learning, das sogenannte Vanishing-Gradient-Problem. In herkömmlichen Netzwerken führte das Stapeln weiterer Schichten häufig zu einer Leistungs sättigung oder -verschlechterung, da das zur Aktualisierung der Modellgewichte erforderliche Signal bei der Rückwärtsausbreitung durch die Schichten schwächer wurde. ResNet führte „Skip-Verbindungen” (oder Restverbindungen) ein, die es ermöglichen, dass Daten eine oder mehrere Schichten umgehen und direkt zu den nachfolgenden Verarbeitungsstufen fließen. Diese Innovation bewies, dass tiefere Netzwerke effektiv trainiert werden können, was zu bedeutenden Durchbrüchen im Bereich Computer Vision (CV) führte und zu einem grundlegenden Konzept für moderne Architekturen wurde.

Das Kernkonzept: Restliches Lernen

Das bestimmende Merkmal eines ResNet ist der „Residualblock”. In einem standardmäßigen Convolutional Neural Network (CNN) versucht jede Schicht, eine direkte Zuordnung von der Eingabe zur Ausgabe zu lernen. Mit zunehmender Tiefe des Netzwerks wird das Erlernen dieser direkten Zuordnung immer schwieriger.

ResNet ändert diesen Ansatz, indem es das Lernziel anders formuliert. Anstatt zu hoffen, dass jeder Stapel von Schichten die gesamte zugrunde liegende Zuordnung lernt, zwingt der Restblock die Schichten, den „Rest“ – oder die Differenz – zwischen der Eingabe und der gewünschten Ausgabe zu lernen. Die ursprüngliche Eingabe wird dann über eine Skip-Verbindung wieder zum gelernten Rest hinzugefügt . Diese strukturelle Änderung bedeutet, dass das Netzwerk, wenn eine Identitätszuordnung (die Eingabe unverändert weitergibt) optimal ist, leicht lernen kann, die Reste auf Null zu setzen. Dadurch lassen sich Deep-Learning-Modelle (DL) viel einfacher optimieren, sodass sie von Dutzenden auf Hunderte oder sogar Tausende von Schichten skaliert werden können.

Wichtige Architekturvarianten

Seit seiner Einführung sind mehrere Varianten von ResNet zu Standard-Benchmarks in der KI-Community geworden.

  • ResNet-50: Eine 50-schichtige Version, die ein „Bottleneck“-Design verwendet. Dieses Design nutzt 1x1-Faltungen, um die Dimensionen zu reduzieren und anschließend wiederherzustellen, wodurch das Netzwerk rechnerisch effizient ist und gleichzeitig eine hohe Genauigkeit beibehält.
  • ResNet-101 und ResNet-152: Tiefere Varianten mit 101 bzw. 152 Schichten. Diese werden oft verwendet, wenn die Rechenressourcen eine höhere Komplexität zulassen, um komplexere Merkmalsabbildungen zu erfassen.
  • ResNeXt: Eine Weiterentwicklung von ResNet, die eine „Kardinalitätsdimension” einführt und den Restblock in mehrere parallele Pfade aufteilt, wodurch Effizienz und Leistung verbessert werden.

Anwendungsfälle in der Praxis

Die Robustheit der ResNet-Architekturen hat sie zu einer ersten Wahl für eine Vielzahl visueller Aufgaben gemacht.

  • Medizinische Bildanalyse: Im Gesundheitswesen ist es von entscheidender Bedeutung, subtile Anomalien in hochauflösenden Scans zu erkennen. ResNet-basierte Modelle werden häufig eingesetzt, um detect wie Tumore in medizinischen Bildern zu erkennen, wobei die Tiefe des Netzwerks dabei hilft, feine Muster in MRT- oder CT-Daten zu erkennen.
  • Autonome Fahrzeuge: Selbstfahrende Autos benötigen eine zuverlässige Merkmalsextraktion aus Kamerabildern, um Fußgänger, Schilder und Hindernisse zu identifizieren. ResNets dienen häufig als Rückgrat für Objekterkennungssysteme in der KI in Automobilanwendungen und bieten die vielfältigen visuellen Merkmale, die für eine sichere Navigation erforderlich sind.

ResNet vs. andere Architekturen

Es ist hilfreich, ResNet von anderen gängigen Architekturen zu unterscheiden, um seinen spezifischen Nutzen zu verstehen.

  • ResNet vs. VGG: VGG-Netzwerke (Visual Geometry Group) sind ebenfalls tiefe CNNs, verfügen jedoch nicht über Restverbindungen. Folglich sind sie bei einer mit ResNet vergleichbaren Tiefe wesentlich schwieriger zu trainieren und aufgrund ihrer großen, vollständig verbundenen Schichten im Allgemeinen rechenintensiver.
  • ResNet vs. Inception: Inception-Netzwerke konzentrieren sich auf die Breite und verwenden Filter unterschiedlicher Größe innerhalb derselben Schicht, um Merkmale in verschiedenen Maßstäben zu erfassen. ResNet konzentriert sich auf die Tiefe. Moderne Architekturen wie Inception-ResNet kombinieren beide Konzepte.
  • ResNet vs. Vision Transformer (ViT): Während ViTs Selbstaufmerksamkeitsmechanismen verwenden, um Bilder global zu verarbeiten, basieren ResNets auf lokalen Faltungen. Dennoch bleiben ResNets eine starke Basis und sind oft schneller für kleinere Datensätze oder Echtzeit-Inferenz .

Beispiel für die Umsetzung

Moderne Deep-Learning-Bibliotheken wie PyTorch den Zugriff auf vortrainierte ResNet-Modelle. Diese Modelle sind für das Transferlernen von unschätzbarem Wert, bei dem ein Modell , das auf einem großen Datensatz wie ImageNet auf einer großen Datenmenge wie ImageNet trainiert wurde, für eine bestimmte Aufgabe

Der folgende Python zeigt, wie ein vortrainiertes ResNet-50-Modell geladen wird, indem torchvision (Teil des PyTorch ) und führen einen einfachen Vorwärtsdurchlauf durch. Während Benutzer des Ultralytics könnte oft verwenden YOLO26 Für die Erkennung ist das Verständnis der zugrunde liegenden Backbone-Konzepte wie ResNet entscheidend für eine fortgeschrittene Anpassung.

import torch
import torchvision.models as models

# Load a pre-trained ResNet-50 model
resnet50 = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
resnet50.eval()  # Set model to evaluation mode

# Create a dummy input tensor (batch_size, channels, height, width)
input_tensor = torch.randn(1, 3, 224, 224)

# Perform a forward pass to get predictions
with torch.no_grad():
    output = resnet50(input_tensor)

print(f"Output shape: {output.shape}")  # Expect [1, 1000] for ImageNet classes

Bedeutung in der modernen KI

Obwohl neuere Architekturen wie YOLO26 hochoptimierte Strukturen für maximale Geschwindigkeit und Genauigkeit verwenden , bleiben die Prinzipien des Residual Learning allgegenwärtig. Das Konzept der Skip-Verbindungen ist heute ein Standardbestandteil in vielen fortschrittlichen Netzwerken, einschließlich Transformatoren, die in der natürlichen Sprachverarbeitung (NLP) und die neuesten Objekterkennungsmodelle verwendet werden. Durch die Ermöglichung eines freieren Informationsflusses durch das Netzwerk ebnete ResNet den Weg für die tiefen, komplexen Modelle, die die heutige künstliche Intelligenz antreiben.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten