Глоссарий

GELU (Gaussian Error Linear Unit)

Узнайте, как функция активации GELU улучшает модели-трансформеры, такие как GPT-4, повышая поток градиентов, стабильность и эффективность.

GELU (Gaussian Error Linear Unit) — это высокопроизводительная функция активации, которая стала стандартом в современных архитектурах нейронных сетей, особенно в моделях Transformer. Она известна своей гладкой, немонотонной кривой, которая помогает моделям более эффективно изучать сложные закономерности, чем старые функции. Представленная в статье «Гауссовские линейные блоки ошибок (GELU)», она сочетает в себе свойства других функций, таких как dropout и ReLU, для повышения стабильности обучения и производительности модели.

Как работает GELU

В отличие от ReLU, которая резко отсекает все отрицательные значения, GELU взвешивает свои входные данные на основе их величины. Она вероятностно определяет, следует ли активировать нейрон, умножая входные данные на функцию кумулятивного распределения (CDF) стандартного нормального распределения. Это означает, что входные данные с большей вероятностью будут «отброшены» (установлены в ноль), чем более они отрицательны, но переход является плавным, а не резким. Это свойство стохастической регуляризации помогает предотвратить такие проблемы, как проблема исчезающего градиента, и обеспечивает более богатое представление данных, что имеет решающее значение для современных моделей глубокого обучения.

GELU в сравнении с другими функциями активации

GELU предлагает ряд преимуществ по сравнению с другими популярными функциями активации, что привело к ее широкому распространению.

GELU vs. ReLU: Основное различие заключается в сглаженности GELU. Хотя ReLU вычислительно прост, его острый угол в нуле иногда может привести к проблеме «умирающего ReLU», когда нейроны становятся постоянно неактивными. Сглаженная кривая GELU позволяет избежать этой проблемы, облегчая более стабильный градиентный спуск и часто приводя к лучшей конечной точности.
GELU vs. Leaky ReLU: Leaky ReLU пытается решить проблему умирающего ReLU, допуская небольшой отрицательный наклон для отрицательных входов. Однако нелинейный, изогнутый характер GELU обеспечивает более динамичный диапазон активации, который, как было показано, превосходит Leaky ReLU во многих задачах глубокого обучения.
GELU vs. SiLU (Swish): Sigmoid Linear Unit (SiLU), также известный как Swish, очень похож на GELU. Обе являются гладкими, немонотонными функциями, которые показали отличную производительность. Выбор между ними часто сводится к эмпирическому тестированию для конкретной архитектуры и набора данных, хотя некоторые исследования показывают, что SiLU может быть немного более эффективным в определенных моделях компьютерного зрения. Модели, такие как Ultralytics YOLO, часто используют SiLU для баланса производительности и эффективности.

Приложения в области ИИ и глубокого обучения

GELU является ключевым компонентом во многих из самых мощных моделей ИИ, разработанных на сегодняшний день.

Обработка естественного языка (Natural Language Processing, NLP): GELU является стандартной функцией активации в нейронных сетях прямой связи архитектур Transformer. Сюда входят основополагающие модели, такие как BERT и серия GPT, которые являются основой почти всех современных больших языковых моделей (LLM). Ее способность обрабатывать сложные лингвистические закономерности делает ее идеальной для таких задач, как машинный перевод и автоматическое реферирование текста. Вы можете узнать больше об этих моделях из ресурсов таких организаций, как Hugging Face.
Компьютерное зрение (CV): После своего успеха в NLP, GELU была принята в моделях Vision Transformer (ViT). Эти модели применяют архитектуру Transformer к фрагментам изображений для таких задач, как классификация изображений и обнаружение объектов. Производительность ViT продемонстрировала эффективность GELU в обработке визуальной информации, бросая вызов доминированию традиционных сверточных нейронных сетей (CNN).

Реализация и использование

Функция GELU легко доступна во всех основных фреймворках глубокого обучения, что упрощает ее интеграцию в пользовательские модели.

PyTorch: Реализовано как torch.nn.GELUс подробной информацией в официальная документация PyTorch GELU.
TensorFlow: Доступно как tf.keras.activations.geluчто задокументировано в Документация по API TensorFlow.

Разработчики могут создавать, обучать и развертывать модели, используя GELU, с помощью таких платформ, как Ultralytics HUB, которая оптимизирует весь жизненный цикл MLOps от аугментации данных до окончательного развертывания модели.

GELU (Gaussian Error Linear Unit)

Обучайте модели Ultralytics YOLO для оптимизации рабочих процессов в различных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте AI-модели за секунды с Ultralytics YOLO

Как работает GELU

GELU в сравнении с другими функциями активации

Приложения в области ИИ и глубокого обучения

Реализация и использование

Читать больше в этой категории

От битов к кубитам: Как квантовая оптимизация меняет ИИ

Краткое руководство для начинающих о том, как обучить модель искусственного интеллекта

Из Дубая с глубоким пониманием: Основные итоги саммита GDG MENA-T Summit 2025

Присоединяйтесь к сообществу Ultralytics