Entdecken Sie, wie ResNets das Deep Learning revolutionieren, indem sie das Problem verschwindender Gradienten lösen und ultratiefe Netzwerke für Bildanalyse, NLP und mehr ermöglichen.
Residual Networks, allgemein bekannt als ResNet, sind eine bahnbrechende Art von neuronaler Netzwerkarchitektur (NN), die das Feld des Deep Learning maßgeblich beeinflusst hat. ResNet wurde von Kaiming He et al. in ihrem Paper von 2015, "Deep Residual Learning for Image Recognition", vorgestellt und ermöglichte es, extrem tiefe neuronale Netze mit Hunderten oder sogar Tausenden von Schichten effektiv zu trainieren. Dies wurde durch die Einführung von "Residual Blocks" mit "Skip Connections" erreicht, einem einfachen, aber leistungsstarken Konzept, das das Problem des verschwindenden Gradienten mildert, das sehr tiefe Netze häufig plagt.
Die Kerninnovation von ResNet ist die Verwendung von Skip-Verbindungen oder Shortcuts. In einem traditionellen Convolutional Neural Network (CNN) leitet jede Schicht ihre Ausgabe direkt an die nächste Schicht in der Sequenz weiter. Je tiefer das Netzwerk wird, desto schwieriger wird es für das Netzwerk zu lernen und für Gradienten, sich während des Trainings zurückzupropagieren. Dies kann zu einer Situation führen, in der das Hinzufügen weiterer Schichten die Leistung des Modells tatsächlich verschlechtert.
ResNet begegnet diesem Problem, indem es ermöglicht, den Input einer Schicht (oder eines Blocks von Schichten) zu ihrem Output zu addieren. Diese Skip Connection erzeugt einen alternativen Pfad, durch den der Gradient fließen kann, wodurch sichergestellt wird, dass auch sehr tiefe Netze effektiv trainiert werden können. Diese Struktur ermöglicht es dem Netzwerk, Residualfunktionen zu lernen – im Wesentlichen müssen die Schichten nur die Änderungen oder Residuen vom Input lernen, anstatt die gesamte Transformation. Wenn eine Schicht nicht vorteilhaft ist, kann das Netzwerk leicht lernen, sie zu ignorieren, indem es ihre Gewichte gegen Null treibt, wodurch die Identitätsabbildung durch die Skip Connection weitergeleitet werden kann.
Die leistungsstarken Merkmalsextraktions-Fähigkeiten von ResNet machen es zu einer beliebten Wahl als Backbone für viele komplexe Computer Vision-Aufgaben.
ResNet-Architekturen sind in wichtigen Deep-Learning-Frameworks wie PyTorch und TensorFlow weit verbreitet. Vorab trainierte Modelle, die oft auf dem umfangreichen ImageNet-Datensatz trainiert wurden, sind über Bibliotheken wie torchvision leicht verfügbar, was ein effektives Transfer Learning für kundenspezifische Anwendungen ermöglicht. Plattformen wie Ultralytics HUB ermöglichen es Benutzern, verschiedene Architekturen, einschließlich ResNet-basierter Modelle, zu nutzen, um benutzerdefinierte Modelle zu trainieren, die auf ihre spezifischen Bedürfnisse zugeschnitten sind. Während ResNet eine starke Performance-Baseline setzte, wurden neuere Architekturen wie EfficientNet entwickelt, um eine bessere Effizienz zu bieten. Weitere Lernressourcen zu CNNs finden Sie im CS231n-Kurs von Stanford oder in Kursen von Anbietern wie DeepLearning.AI.