Узнайте, как функция активации GELU улучшает модели-трансформеры, такие как GPT-4, повышая поток градиентов, стабильность и эффективность.
GELU (Gaussian Error Linear Unit) — это высокопроизводительная функция активации, которая стала стандартом в современных архитектурах нейронных сетей, особенно в моделях Transformer. Она известна своей гладкой, немонотонной кривой, которая помогает моделям более эффективно изучать сложные закономерности, чем старые функции. Представленная в статье «Гауссовские линейные блоки ошибок (GELU)», она сочетает в себе свойства других функций, таких как dropout и ReLU, для повышения стабильности обучения и производительности модели.
В отличие от ReLU, которая резко отсекает все отрицательные значения, GELU взвешивает свои входные данные на основе их величины. Она вероятностно определяет, следует ли активировать нейрон, умножая входные данные на функцию кумулятивного распределения (CDF) стандартного нормального распределения. Это означает, что входные данные с большей вероятностью будут «отброшены» (установлены в ноль), чем более они отрицательны, но переход является плавным, а не резким. Это свойство стохастической регуляризации помогает предотвратить такие проблемы, как проблема исчезающего градиента, и обеспечивает более богатое представление данных, что имеет решающее значение для современных моделей глубокого обучения.
GELU предлагает ряд преимуществ по сравнению с другими популярными функциями активации, что привело к ее широкому распространению.
GELU является ключевым компонентом во многих из самых мощных моделей ИИ, разработанных на сегодняшний день.
Функция GELU легко доступна во всех основных фреймворках глубокого обучения, что упрощает ее интеграцию в пользовательские модели.
torch.nn.GELU
с подробной информацией в официальная документация PyTorch GELU.tf.keras.activations.gelu
что задокументировано в Документация по API TensorFlow.Разработчики могут создавать, обучать и развертывать модели, используя GELU, с помощью таких платформ, как Ultralytics HUB, которая оптимизирует весь жизненный цикл MLOps от аугментации данных до окончательного развертывания модели.