Entdecken Sie die Leistungsfähigkeit von Residual Networks (ResNet). Erfahren Sie, wie Skip-Verbindungen das Problem des verschwindenden Gradienten lösen und Deep Learning für die Bildverarbeitung ermöglichen.
Residual Networks, allgemein bekannt als ResNets, sind eine spezielle Art von künstlicher neuronaler Netzwerkarchitektur (ANN) , die für das Training extrem tiefer Netzwerke entwickelt wurde. ResNet Microsoft von Forschern bei Microsoft eingeführt und löste einen kritischen Engpass im Deep Learning, das sogenannte Vanishing-Gradient-Problem. In herkömmlichen Netzwerken führte das Stapeln weiterer Schichten häufig zu einer Leistungs sättigung oder -verschlechterung, da das zur Aktualisierung der Modellgewichte erforderliche Signal bei der Rückwärtsausbreitung durch die Schichten schwächer wurde. ResNet führte „Skip-Verbindungen” (oder Restverbindungen) ein, die es ermöglichen, dass Daten eine oder mehrere Schichten umgehen und direkt zu den nachfolgenden Verarbeitungsstufen fließen. Diese Innovation bewies, dass tiefere Netzwerke effektiv trainiert werden können, was zu bedeutenden Durchbrüchen im Bereich Computer Vision (CV) führte und zu einem grundlegenden Konzept für moderne Architekturen wurde.
Das bestimmende Merkmal eines ResNet ist der „Residualblock”. In einem standardmäßigen Convolutional Neural Network (CNN) versucht jede Schicht, eine direkte Zuordnung von der Eingabe zur Ausgabe zu lernen. Mit zunehmender Tiefe des Netzwerks wird das Erlernen dieser direkten Zuordnung immer schwieriger.
ResNet ändert diesen Ansatz, indem es das Lernziel anders formuliert. Anstatt zu hoffen, dass jeder Stapel von Schichten die gesamte zugrunde liegende Zuordnung lernt, zwingt der Restblock die Schichten, den „Rest“ – oder die Differenz – zwischen der Eingabe und der gewünschten Ausgabe zu lernen. Die ursprüngliche Eingabe wird dann über eine Skip-Verbindung wieder zum gelernten Rest hinzugefügt . Diese strukturelle Änderung bedeutet, dass das Netzwerk, wenn eine Identitätszuordnung (die Eingabe unverändert weitergibt) optimal ist, leicht lernen kann, die Reste auf Null zu setzen. Dadurch lassen sich Deep-Learning-Modelle (DL) viel einfacher optimieren, sodass sie von Dutzenden auf Hunderte oder sogar Tausende von Schichten skaliert werden können.
Seit seiner Einführung sind mehrere Varianten von ResNet zu Standard-Benchmarks in der KI-Community geworden.
Die Robustheit der ResNet-Architekturen hat sie zu einer ersten Wahl für eine Vielzahl visueller Aufgaben gemacht.
Es ist hilfreich, ResNet von anderen gängigen Architekturen zu unterscheiden, um seinen spezifischen Nutzen zu verstehen.
Moderne Deep-Learning-Bibliotheken wie PyTorch den Zugriff auf vortrainierte ResNet-Modelle. Diese Modelle sind für das Transferlernen von unschätzbarem Wert, bei dem ein Modell , das auf einem großen Datensatz wie ImageNet auf einer großen Datenmenge wie ImageNet trainiert wurde, für eine bestimmte Aufgabe
Der folgende Python zeigt, wie ein vortrainiertes ResNet-50-Modell geladen wird, indem
torchvision (Teil des PyTorch ) und führen einen einfachen Vorwärtsdurchlauf durch. Während Benutzer des
Ultralytics könnte oft verwenden
YOLO26 Für die Erkennung ist das Verständnis der zugrunde liegenden Backbone-Konzepte
wie ResNet entscheidend für eine fortgeschrittene Anpassung.
import torch
import torchvision.models as models
# Load a pre-trained ResNet-50 model
resnet50 = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
resnet50.eval() # Set model to evaluation mode
# Create a dummy input tensor (batch_size, channels, height, width)
input_tensor = torch.randn(1, 3, 224, 224)
# Perform a forward pass to get predictions
with torch.no_grad():
output = resnet50(input_tensor)
print(f"Output shape: {output.shape}") # Expect [1, 1000] for ImageNet classes
Obwohl neuere Architekturen wie YOLO26 hochoptimierte Strukturen für maximale Geschwindigkeit und Genauigkeit verwenden , bleiben die Prinzipien des Residual Learning allgegenwärtig. Das Konzept der Skip-Verbindungen ist heute ein Standardbestandteil in vielen fortschrittlichen Netzwerken, einschließlich Transformatoren, die in der natürlichen Sprachverarbeitung (NLP) und die neuesten Objekterkennungsmodelle verwendet werden. Durch die Ermöglichung eines freieren Informationsflusses durch das Netzwerk ebnete ResNet den Weg für die tiefen, komplexen Modelle, die die heutige künstliche Intelligenz antreiben.