Глоссарий

GELU (линейная единица измерения с гауссовой ошибкой)

Узнайте, как функция активации GELU улучшает модели трансформаторов типа GPT-4, повышая градиентный поток, стабильность и эффективность.

GELU (Gaussian Error Linear Unit) - это высокоэффективная функция активации, которая стала стандартом в современных архитектурах нейронных сетей, особенно в моделях Transformer. Она известна своей плавной, немонотонной кривой, которая помогает моделям обучаться сложным паттернам более эффективно, чем старые функции. Представленная в статье"Линейные единицы с гауссовой ошибкой (GELU)", она сочетает в себе свойства других функций, таких как dropout и ReLU, чтобы улучшить стабильность обучения и производительность модели.

Как работает GELU

В отличие от ReLU, который резко отсекает все отрицательные значения, GELU взвешивает свои входы на основе их величины. Он вероятностно определяет, активировать ли нейрон, умножая входной сигнал на кумулятивную функцию распределения (CDF) стандартного гауссова распределения. Это означает, что вероятность того, что входные сигналы будут "отброшены" (установлены в ноль), тем выше, чем они отрицательнее, но переход происходит плавно, а не резко. Это свойство стохастической регуляризации помогает предотвратить такие проблемы, как проблема исчезающего градиента, и позволяет получить более богатое представление данных, что очень важно для современных моделей глубокого обучения.

GELU в сравнении с другими функциями активации

GELU обладает рядом преимуществ по сравнению с другими популярными функциями активации, что привело к ее широкому распространению.

  • GELU против ReLU: Основное различие заключается в гладкости GELU. Хотя ReLU прост с вычислительной точки зрения, его острый угол в нулевой точке иногда может привести к проблеме "умирающего ReLU", когда нейроны становятся постоянно неактивными. Плавная кривая GELU позволяет избежать этой проблемы, способствуя более стабильному градиентному спуску и часто приводя к лучшей конечной точности.
  • GELU против Leaky ReLU: Leaky ReLU пытается решить проблему умирающего ReLU, позволяя небольшой отрицательный наклон для отрицательных входов. Однако нелинейная, изогнутая природа GELU обеспечивает более динамичный диапазон активации, который, как было показано, превосходит Leaky ReLU во многих задачах глубокого обучения.
  • GELU против SiLU (Swish): Sigmoid Linear Unit (SiLU), также известная как Swish, очень похожа на GELU. Обе они представляют собой гладкие, немонотонные функции, которые показали отличную производительность. Выбор между ними часто сводится к эмпирическому тестированию для конкретной архитектуры и набора данных, хотя некоторые исследования показывают, что SiLU может быть немного эффективнее в определенных моделях компьютерного зрения. В таких моделях, как Ultralytics YOLO, часто используется SiLU благодаря балансу производительности и эффективности.

Приложения в искусственном интеллекте и глубоком обучении

GELU - ключевой компонент многих самых мощных моделей искусственного интеллекта, разработанных на сегодняшний день.

Внедрение и использование

GELU легко доступен во всех основных фреймворках глубокого обучения, что упрощает его включение в пользовательские модели.

Разработчики могут создавать, обучать и развертывать модели с помощью GELU и таких платформ, как Ultralytics HUB, которая упрощает весь жизненный цикл MLOps от пополнения данных до окончательного развертывания модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена