Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

GELU (Gaussian Error Linear Unit)

Узнайте, как функция активации GELU улучшает модели-трансформеры, такие как GPT-4, повышая поток градиентов, стабильность и эффективность.

GELU (Gaussian Error Linear Unit) — это высокопроизводительная функция активации, которая стала стандартом в современных архитектурах нейронных сетей, особенно в моделях Transformer. Она известна своей гладкой, немонотонной кривой, которая помогает моделям более эффективно изучать сложные закономерности, чем старые функции. Представленная в статье «Гауссовские линейные блоки ошибок (GELU)», она сочетает в себе свойства других функций, таких как dropout и ReLU, для повышения стабильности обучения и производительности модели.

Как работает GELU

В отличие от ReLU, которая резко отсекает все отрицательные значения, GELU взвешивает свои входные данные на основе их величины. Она вероятностно определяет, следует ли активировать нейрон, умножая входные данные на функцию кумулятивного распределения (CDF) стандартного нормального распределения. Это означает, что входные данные с большей вероятностью будут «отброшены» (установлены в ноль), чем более они отрицательны, но переход является плавным, а не резким. Это свойство стохастической регуляризации помогает предотвратить такие проблемы, как проблема исчезающего градиента, и обеспечивает более богатое представление данных, что имеет решающее значение для современных моделей глубокого обучения.

GELU в сравнении с другими функциями активации

GELU предлагает ряд преимуществ по сравнению с другими популярными функциями активации, что привело к ее широкому распространению.

  • GELU vs. ReLU: Основное различие заключается в сглаженности GELU. Хотя ReLU вычислительно прост, его острый угол в нуле иногда может привести к проблеме «умирающего ReLU», когда нейроны становятся постоянно неактивными. Сглаженная кривая GELU позволяет избежать этой проблемы, облегчая более стабильный градиентный спуск и часто приводя к лучшей конечной точности.
  • GELU vs. Leaky ReLU: Leaky ReLU пытается решить проблему умирающего ReLU, допуская небольшой отрицательный наклон для отрицательных входов. Однако нелинейный, изогнутый характер GELU обеспечивает более динамичный диапазон активации, который, как было показано, превосходит Leaky ReLU во многих задачах глубокого обучения.
  • GELU vs. SiLU (Swish): Sigmoid Linear Unit (SiLU), также известный как Swish, очень похож на GELU. Обе являются гладкими, немонотонными функциями, которые показали отличную производительность. Выбор между ними часто сводится к эмпирическому тестированию для конкретной архитектуры и набора данных, хотя некоторые исследования показывают, что SiLU может быть немного более эффективным в определенных моделях компьютерного зрения. Модели, такие как Ultralytics YOLO, часто используют SiLU для баланса производительности и эффективности.

Приложения в области ИИ и глубокого обучения

GELU является ключевым компонентом во многих из самых мощных моделей ИИ, разработанных на сегодняшний день.

Реализация и использование

Функция GELU легко доступна во всех основных фреймворках глубокого обучения, что упрощает ее интеграцию в пользовательские модели.

Разработчики могут создавать, обучать и развертывать модели, используя GELU, с помощью таких платформ, как Ultralytics HUB, которая оптимизирует весь жизненный цикл MLOps от аугментации данных до окончательного развертывания модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена