Entdecken Sie, wie ResNets das Deep Learning revolutionieren, indem sie verschwindende Gradienten lösen und ultratiefe Netzwerke für Bildanalyse, NLP und vieles mehr ermöglichen.
Residuale Netze, gemeinhin als ResNet bekannt, sind eine bahnbrechende Architektur neuronaler Netze (NN), die einen tiefgreifenden Einfluss auf den Bereich des Deep Learning hatte. ResNet wurde 2015 von Kaiming He et al. in ihrem Papier"Deep Residual Learning for Image Recognition" vorgestellt und ermöglichte das effektive Training extrem tiefer neuronaler Netze mit Hunderten oder sogar Tausenden von Schichten. Erreicht wurde dies durch die Einführung von "Residualblöcken" mit "Skip-Verbindungen", einem einfachen, aber leistungsstarken Konzept, das das Problem des verschwindenden Gradienten, das sehr tiefe Netze häufig plagt, entschärft.
Die wichtigste Innovation von ResNet ist die Verwendung von Sprungverbindungen oder Abkürzungen. In einem herkömmlichen neuronalen Faltungsnetzwerk (Convolutional Neural Network, CNN) leitet jede Schicht ihre Ausgabe direkt an die nächste Schicht weiter. Je tiefer das Netz wird, desto schwieriger wird es für das Netz, zu lernen und Gradienten während des Trainings zurück zu übertragen. Dies kann zu einer Situation führen, in der das Hinzufügen weiterer Schichten die Leistung des Modells verschlechtert.
ResNet löst dieses Problem, indem es die Eingabe einer Schicht (oder eines Blocks von Schichten) zu ihrer Ausgabe hinzufügt. Diese "Skip"-Verbindung schafft einen alternativen Pfad, durch den der Gradient fließen kann, wodurch sichergestellt wird, dass selbst sehr tiefe Netze effektiv trainiert werden können. Diese Struktur ermöglicht es dem Netz, Restfunktionen zu erlernen - im Wesentlichen müssen die Schichten nur die Änderungen oder Residuen aus der Eingabe lernen und nicht die gesamte Transformation. Wenn eine Schicht nicht von Nutzen ist, kann das Netzwerk leicht lernen, sie zu ignorieren, indem es ihre Gewichte gegen Null steuert, so dass die Identitätszuordnung durch die Skip-Verbindung weitergegeben werden kann.
Die leistungsstarken Funktionen von ResNet zur Merkmalsextraktion machen es zu einer beliebten Wahl als Basis für viele komplexe Computer-Vision-Aufgaben.
ResNet-Architekturen sind in den wichtigsten Deep-Learning-Frameworks wie PyTorch und TensorFlow weit verbreitet. Vorgefertigte Modelle, die häufig auf dem umfangreichen ImageNet-Datensatz trainiert werden, sind über Bibliotheken wie torchvision leicht verfügbar, was ein effektives Transfer-Lernen für benutzerdefinierte Anwendungen erleichtert. Plattformen wie Ultralytics HUB ermöglichen es Benutzern, verschiedene Architekturen, einschließlich ResNet-basierter Modelle, zu nutzen, um benutzerdefinierte Modelle für ihre spezifischen Anforderungen zu trainieren. Während ResNet eine starke Leistungsgrundlage darstellte, wurden in der Zwischenzeit neuere Architekturen wie EfficientNet entwickelt, die eine bessere Effizienz bieten. Weitere Bildungsressourcen zu CNNs finden Sie in Stanfords CS231n-Kurs oder in Kursen von Anbietern wie DeepLearning.AI.