Глоссарий

Leaky ReLU

Откройте для себя возможности активации Leaky ReLU для ИИ и машинного обучения. Решите проблему "умирающего ReLU" и повысьте производительность модели в CV, NLP, GAN и других областях!

Leaky Rectified Linear Unit, или Leaky ReLU, — это функция активации, используемая в нейронных сетях (NN) и является прямым улучшением стандартной функции Rectified Linear Unit (ReLU). Она была разработана для решения проблемы «умирающей ReLU», когда нейроны могут стать неактивными и прекратить обучение во время тренировки. Благодаря введению небольшого ненулевого наклона для отрицательных входных значений Leaky ReLU гарантирует, что нейроны всегда имеют градиент, что обеспечивает более стабильное и последовательное обучение в моделях глубокого обучения (DL). Эта простая модификация оказалась эффективной в различных архитектурах, помогая улучшить производительность модели и динамику обучения.

Как Leaky ReLU решает проблему «умирающего нейрона»

Основная мотивация Leaky ReLU — решить проблему умирающего нейрона. В стандартной функции ReLU любой отрицательный вход в нейрон приводит к нулевому выходу. Если нейрон постоянно получает отрицательный вход, он всегда будет выдавать ноль. Следовательно, градиент, проходящий через этот нейрон во время обратного распространения, также будет равен нулю. Это означает, что веса нейрона больше не обновляются, и он фактически перестает участвовать в процессе обучения — он «умирает».

Leaky ReLU решает эту проблему, допуская небольшой положительный градиент, когда устройство неактивно. Вместо вывода нуля для отрицательных входов, он выводит значение, умноженное на небольшую константу («утечка»). Это гарантирует, что нейрон никогда не будет иметь нулевой градиент, что позволяет ему восстанавливаться и продолжать обучение. Этот подход был впервые подробно описан в статье об эмпирической оценке выпрямленных активаций в сверточной сети.

Применение в реальном мире

Способность Leaky ReLU способствовать более стабильному обучению сделала ее ценной во многих областях искусственного интеллекта (AI).

Генеративно-состязательные сети (GANs): Leaky ReLU часто используется в сетях-дискриминаторах генеративно-состязательных сетей (GANs). GANs предполагают деликатный баланс между генератором и дискриминатором, и исчезающие градиенты от стандартного ReLU могут дестабилизировать это обучение. Как объясняется в таких ресурсах, как блог Google для разработчиков о GANs, согласованные ненулевые градиенты Leaky ReLU помогают обеим сетям учиться более эффективно, что приводит к генерации более качественных синтетических данных.
Модели обнаружения объектов: Ранние, но оказавшие влияние модели обнаружения объектов, включая некоторые версии YOLO, использовали Leaky ReLU. В глубоких сверточных нейронных сетях (CNN) умирающие нейроны могут помешать модели изучать важные признаки. Leaky ReLU помогает обеспечить активность всех нейронов, улучшая способность модели обнаруживать объекты в различных наборах данных, таких как COCO. Хотя многие современные архитектуры, такие как Ultralytics YOLO11, теперь используют более продвинутые функции, Leaky ReLU была ключевым компонентом в создании их основ.

Leaky ReLU в сравнении с другими функциями активации

Leaky ReLU — одна из нескольких функций активации, разработанных для улучшения оригинальной ReLU. Понимание ее взаимосвязи с другими помогает в выборе правильной функции для данной задачи.

ReLU: Ключевое отличие состоит в том, что ReLU полностью неактивен для отрицательных входов, в то время как Leaky ReLU поддерживает небольшой постоянный градиент.
SiLU и GELU: Новые функции активации, такие как SiLU (Sigmoid Linear Unit) и GELU (Gaussian Error Linear Unit), обеспечивают плавные, немонотонные кривые, которые иногда могут привести к повышению точности. Они часто встречаются в продвинутых моделях, таких как Transformers. Однако они вычислительно более сложны, чем простая линейная операция Leaky ReLU. Подробный обзор функций активации может предоставить дополнительные сравнения.
Parametric ReLU (PReLU): PReLU — это вариант, в котором коэффициент утечки изучается во время обучения, что делает его параметром модели, а не фиксированным гиперпараметром.

Оптимальный выбор функции активации часто зависит от конкретной архитектуры, набора данных (например, тех, которые доступны на Ultralytics Datasets), и результатов настройки гиперпараметров. Leaky ReLU остается сильным выбором благодаря своей простоте, низким вычислительным затратам и эффективности в предотвращении гибели нейронов.

Основные фреймворки глубокого обучения, такие как PyTorch и TensorFlow, предоставляют простые реализации, как это видно из их официальной документации для LeakyReLU в PyTorch и LeakyReLU в TensorFlow. Такая доступность позволяет разработчикам легко экспериментировать и интегрировать его в свои модели, используя такие платформы, как Ultralytics HUB.

Leaky ReLU

Обучайте модели Ultralytics YOLO для оптимизации рабочих процессов в различных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте AI-модели за секунды с Ultralytics YOLO

Как Leaky ReLU решает проблему «умирающего нейрона»

Применение в реальном мире

Leaky ReLU в сравнении с другими функциями активации

Читать больше в этой категории

Краткое руководство для начинающих о том, как обучить модель искусственного интеллекта

Из Дубая с глубоким пониманием: Основные итоги саммита GDG MENA-T Summit 2025

Изучение ансамблевого обучения и его роли в ИИ и ОД

Присоединяйтесь к сообществу Ultralytics