Glossar

GELU (Gaußsche lineare Fehlereinheit)

Entdecken Sie, wie die GELU-Aktivierungsfunktion Transformatormodelle wie GPT-4 verbessert und den Gradientenfluss, die Stabilität und die Effizienz erhöht.

GELU (Gaussian Error Linear Unit) ist eine leistungsstarke Aktivierungsfunktion, die in modernen neuronalen Netzarchitekturen, insbesondere in Transformer-Modellen, zum Standard geworden ist. Sie ist bekannt für ihre glatte, nicht-monotone Kurve, die den Modellen hilft, komplexe Muster effektiver zu lernen als ältere Funktionen. Die in dem Papier"Gaussian Error Linear Units (GELUs)" vorgestellte Funktion kombiniert Eigenschaften anderer Funktionen wie Dropout und ReLU, um die Trainingsstabilität und Modellleistung zu verbessern.

Wie GELU funktioniert

Im Gegensatz zu ReLU, das alle negativen Werte scharf abschneidet, gewichtet GELU seine Eingaben auf der Grundlage ihrer Größe. Es bestimmt probabilistisch, ob ein Neuron aktiviert wird, indem es die Eingabe mit der kumulativen Verteilungsfunktion (CDF) der Gaußschen Standardverteilung multipliziert. Das bedeutet, dass Eingaben umso wahrscheinlicher "fallen gelassen" (auf Null gesetzt) werden, je negativer sie sind, aber der Übergang ist sanft und nicht abrupt. Diese stochastische Regularisierungseigenschaft hilft, Probleme wie das Problem des verschwindenden Gradienten zu vermeiden, und ermöglicht eine reichhaltigere Darstellung von Daten, was für moderne Deep-Learning-Modelle entscheidend ist.

GELU vs. andere Aktivierungsfunktionen

GELU bietet mehrere Vorteile gegenüber anderen gängigen Aktivierungsfunktionen, was zu seiner weiten Verbreitung geführt hat.

  • GELU vs. ReLU: Der Hauptunterschied ist die Glattheit von GELU. Während ReLU rechnerisch einfach ist, kann seine scharfe Ecke am Nullpunkt manchmal zu dem "sterbenden ReLU"-Problem führen, bei dem Neuronen dauerhaft inaktiv werden. Die glatte Kurve von GELU vermeidet dieses Problem, erleichtert einen stabileren Gradientenabstieg und führt oft zu einer besseren Endgenauigkeit.
  • GELU vs. Leaky ReLU: Leaky ReLU versucht, das Problem des sterbenden ReLU zu lösen, indem es eine kleine, negative Steigung für negative Eingaben zulässt. Die nicht lineare, gekrümmte Natur von GELU bietet jedoch einen dynamischeren Aktivierungsbereich, der Leaky ReLU bei vielen Deep Learning-Aufgaben nachweislich übertrifft.
  • GELU vs. SiLU (Swish): Die Sigmoid Linear Unit (SiLU), auch bekannt als Swish, ist der GELU sehr ähnlich. Beides sind glatte, nicht monotone Funktionen, die sich hervorragend bewährt haben. Die Wahl zwischen ihnen hängt oft von empirischen Tests für eine bestimmte Architektur und einen bestimmten Datensatz ab, obwohl einige Untersuchungen darauf hindeuten, dass SiLU bei bestimmten Computer-Vision-Modellen etwas effizienter sein kann. Modelle wie Ultralytics YOLO verwenden häufig SiLU wegen der Ausgewogenheit von Leistung und Effizienz.

Anwendungen in AI und Deep Learning

GELU ist eine Schlüsselkomponente in vielen der leistungsfähigsten KI-Modelle, die bis heute entwickelt wurden.

Umsetzung und Nutzung

GELU ist in allen wichtigen Deep-Learning-Frameworks verfügbar und lässt sich daher leicht in benutzerdefinierte Modelle einbinden.

Entwickler können Modelle unter Verwendung von GELU mit Plattformen wie Ultralytics HUB erstellen, trainieren und bereitstellen, wodurch der gesamte MLOps-Lebenszyklus von der Datenerweiterung bis zur endgültigen Modellbereitstellung rationalisiert wird.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert