Glossar

GELU (Gaussian Error Linear Unit)

Entdecken Sie, wie die GELU-Aktivierungsfunktion Transformer-Modelle wie GPT-4 verbessert und den Gradientenfluss, die Stabilität und die Effizienz steigert.

GELU (Gaussian Error Linear Unit) ist eine leistungsstarke Aktivierungsfunktion, die sich zu einem Standard in hochmodernen Neuronalen Netzwerk-Architekturen entwickelt hat, insbesondere in Transformer-Modellen. Sie ist bekannt für ihre glatte, nicht-monotone Kurve, die Modellen hilft, komplexe Muster effektiver zu lernen als ältere Funktionen. Sie wurde in dem Paper "Gaussian Error Linear Units (GELUs)" vorgestellt und kombiniert Eigenschaften von anderen Funktionen wie Dropout und ReLU, um die Trainingsstabilität und die Modellleistung zu verbessern.

Wie GELU funktioniert

Im Gegensatz zu ReLU, das alle negativen Werte abrupt abschneidet, gewichtet GELU seine Eingaben basierend auf ihrer Größe. Es bestimmt probabilistisch, ob ein Neuron aktiviert werden soll, indem es die Eingabe mit der kumulativen Verteilungsfunktion (CDF) der Standard-Gauß-Verteilung multipliziert. Dies bedeutet, dass Eingaben eher "fallen gelassen" (auf Null gesetzt) werden, je negativer sie sind, aber der Übergang ist fließend und nicht abrupt. Diese stochastische Regularisierungseigenschaft hilft, Probleme wie das Verschwindende-Gradienten-Problem zu verhindern und ermöglicht eine reichhaltigere Darstellung von Daten, was für moderne Deep-Learning-Modelle entscheidend ist.

GELU im Vergleich zu anderen Aktivierungsfunktionen

GELU bietet mehrere Vorteile gegenüber anderen gängigen Aktivierungsfunktionen, was zu seiner breiten Akzeptanz geführt hat.

GELU vs. ReLU: Der Hauptunterschied ist die Glätte von GELU. Während ReLU rechentechnisch einfach ist, kann seine scharfe Ecke bei Null manchmal zu dem Problem des "sterbenden ReLU" führen, bei dem Neuronen dauerhaft inaktiv werden. Die glatte Kurve von GELU vermeidet dieses Problem, was einen stabileren Gradientenabstieg ermöglicht und oft zu einer besseren endgültigen Genauigkeit führt.
GELU vs. Leaky ReLU: Leaky ReLU versucht, das Problem des "sterbenden ReLU" zu beheben, indem es eine kleine, negative Steigung für negative Eingaben zulässt. Die nicht-lineare, gekrümmte Natur von GELU bietet jedoch einen dynamischeren Aktivierungsbereich, der in vielen Deep-Learning-Aufgaben eine bessere Leistung gezeigt hat als Leaky ReLU.
GELU vs. SiLU (Swish): Die Sigmoid Linear Unit (SiLU), auch bekannt als Swish, ist GELU sehr ähnlich. Beide sind glatte, nicht-monotone Funktionen, die eine ausgezeichnete Leistung gezeigt haben. Die Wahl zwischen ihnen hängt oft von empirischen Tests für eine bestimmte Architektur und einen bestimmten Datensatz ab, obwohl einige Forschungsergebnisse darauf hindeuten, dass SiLU in bestimmten Computer Vision Modellen etwas effizienter sein kann. Modelle wie Ultralytics YOLO verwenden SiLU oft wegen seines Gleichgewichts zwischen Leistung und Effizienz.

Anwendungen in KI und Deep Learning

GELU ist eine Schlüsselkomponente in vielen der leistungsstärksten KI-Modelle, die bisher entwickelt wurden.

Natural Language Processing (NLP): GELU ist die Standard-Aktivierungsfunktion in den Feedforward-Netzwerken von Transformer-Architekturen. Dazu gehören bahnbrechende Modelle wie BERT und die GPT-Serie, die die Grundlage für fast alle modernen Large Language Models (LLMs) bilden. Seine Fähigkeit, komplexe linguistische Muster zu verarbeiten, macht es ideal für Aufgaben wie maschinelle Übersetzung und Textzusammenfassung. Weitere Informationen zu diesen Modellen finden Sie in Ressourcen von Organisationen wie Hugging Face.
Computer Vision (CV): Nach seinem Erfolg in NLP wurde GELU in Vision Transformer (ViT)-Modellen eingesetzt. Diese Modelle wenden die Transformer-Architektur auf Bildausschnitte für Aufgaben wie Bildklassifizierung und Objekterkennung an. Die Leistung von ViTs hat die Effektivität von GELU bei der Verarbeitung visueller Informationen gezeigt und die Dominanz traditioneller Convolutional Neural Networks (CNNs) in Frage gestellt.

Implementierung und Nutzung

GELU ist in allen wichtigen Deep-Learning-Frameworks leicht verfügbar, wodurch es einfach in benutzerdefinierte Modelle integriert werden kann.

PyTorch: Implementiert als torch.nn.GELU, mit detaillierten Informationen in der Offizielle PyTorch GELU Dokumentation.
TensorFlow: Verfügbar als tf.keras.activations.gelu, was in der TensorFlow API-Dokumentation.

Entwickler können Modelle mit GELU mithilfe von Plattformen wie Ultralytics HUB erstellen, trainieren und bereitstellen, was den gesamten MLOps-Lebenszyklus von der Datenerweiterung bis zur finalen Modellbereitstellung optimiert.

GELU (Gaussian Error Linear Unit)

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie GELU funktioniert

GELU im Vergleich zu anderen Aktivierungsfunktionen

Anwendungen in KI und Deep Learning

Implementierung und Nutzung

Mehr in dieser Kategorie lesen

Von Bits zu Qubits: Wie die Quantenoptimierung die KI umgestaltet

Eine Kurzanleitung für Anfänger, wie man ein KI-Modell trainiert

Aus Dubai mit Einblicken: Die wichtigsten Erkenntnisse aus dem GDG MENA-T Summit 2025

Treten Sie der Ultralytics-Community bei