Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

GELU (Gaussian Error Linear Unit)

Entdecken Sie, wie die GELU-Aktivierungsfunktion Transformer-Modelle wie GPT-4 verbessert und den Gradientenfluss, die Stabilität und die Effizienz steigert.

GELU (Gaussian Error Linear Unit) ist eine leistungsstarke Aktivierungsfunktion, die sich zu einem Standard in hochmodernen Neuronalen Netzwerk-Architekturen entwickelt hat, insbesondere in Transformer-Modellen. Sie ist bekannt für ihre glatte, nicht-monotone Kurve, die Modellen hilft, komplexe Muster effektiver zu lernen als ältere Funktionen. Sie wurde in dem Paper "Gaussian Error Linear Units (GELUs)" vorgestellt und kombiniert Eigenschaften von anderen Funktionen wie Dropout und ReLU, um die Trainingsstabilität und die Modellleistung zu verbessern.

Wie GELU funktioniert

Im Gegensatz zu ReLU, das alle negativen Werte abrupt abschneidet, gewichtet GELU seine Eingaben basierend auf ihrer Größe. Es bestimmt probabilistisch, ob ein Neuron aktiviert werden soll, indem es die Eingabe mit der kumulativen Verteilungsfunktion (CDF) der Standard-Gauß-Verteilung multipliziert. Dies bedeutet, dass Eingaben eher "fallen gelassen" (auf Null gesetzt) werden, je negativer sie sind, aber der Übergang ist fließend und nicht abrupt. Diese stochastische Regularisierungseigenschaft hilft, Probleme wie das Verschwindende-Gradienten-Problem zu verhindern und ermöglicht eine reichhaltigere Darstellung von Daten, was für moderne Deep-Learning-Modelle entscheidend ist.

GELU im Vergleich zu anderen Aktivierungsfunktionen

GELU bietet mehrere Vorteile gegenüber anderen gängigen Aktivierungsfunktionen, was zu seiner breiten Akzeptanz geführt hat.

  • GELU vs. ReLU: Der Hauptunterschied ist die Glätte von GELU. Während ReLU rechentechnisch einfach ist, kann seine scharfe Ecke bei Null manchmal zu dem Problem des "sterbenden ReLU" führen, bei dem Neuronen dauerhaft inaktiv werden. Die glatte Kurve von GELU vermeidet dieses Problem, was einen stabileren Gradientenabstieg ermöglicht und oft zu einer besseren endgültigen Genauigkeit führt.
  • GELU vs. Leaky ReLU: Leaky ReLU versucht, das Problem des "sterbenden ReLU" zu beheben, indem es eine kleine, negative Steigung für negative Eingaben zulässt. Die nicht-lineare, gekrümmte Natur von GELU bietet jedoch einen dynamischeren Aktivierungsbereich, der in vielen Deep-Learning-Aufgaben eine bessere Leistung gezeigt hat als Leaky ReLU.
  • GELU vs. SiLU (Swish): Die Sigmoid Linear Unit (SiLU), auch bekannt als Swish, ist GELU sehr ähnlich. Beide sind glatte, nicht-monotone Funktionen, die eine ausgezeichnete Leistung gezeigt haben. Die Wahl zwischen ihnen hängt oft von empirischen Tests für eine bestimmte Architektur und einen bestimmten Datensatz ab, obwohl einige Forschungsergebnisse darauf hindeuten, dass SiLU in bestimmten Computer Vision Modellen etwas effizienter sein kann. Modelle wie Ultralytics YOLO verwenden SiLU oft wegen seines Gleichgewichts zwischen Leistung und Effizienz.

Anwendungen in KI und Deep Learning

GELU ist eine Schlüsselkomponente in vielen der leistungsstärksten KI-Modelle, die bisher entwickelt wurden.

Implementierung und Nutzung

GELU ist in allen wichtigen Deep-Learning-Frameworks leicht verfügbar, wodurch es einfach in benutzerdefinierte Modelle integriert werden kann.

Entwickler können Modelle mit GELU mithilfe von Plattformen wie Ultralytics HUB erstellen, trainieren und bereitstellen, was den gesamten MLOps-Lebenszyklus von der Datenerweiterung bis zur finalen Modellbereitstellung optimiert.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert