Глоссарий

SiLU (Sigmoid Linear Unit)

Узнайте, как функция активации SiLU (Swish) повышает производительность глубокого обучения в задачах ИИ, таких как обнаружение объектов и NLP.

Sigmoid Linear Unit, обычно известная как SiLU, — это функция активации, используемая в нейронных сетях, которая приобрела популярность благодаря своей эффективности и производительности. Это саморегулируемая функция, которая элегантно сочетает в себе свойства функций Sigmoid и Rectified Linear Unit (ReLU). SiLU была представлена в статье «Searching for Activation Functions», где она первоначально называлась Swish. Ее уникальные свойства, такие как гладкость и немонотонность, позволяют ей часто превосходить традиционные функции активации, такие как ReLU, в глубоких моделях, что приводит к лучшей точности и более быстрой сходимости во время обучения модели.

Как работает функция SiLU

SiLU определяется путем умножения входного значения на его сигмоиду. Этот механизм саморегулирования позволяет функции плавно переходить от линейной для положительных входных данных к почти нулевой для больших отрицательных входных данных, что помогает регулировать поток информации через сеть. Ключевой характеристикой SiLU является ее немонотонность; она может немного опускаться ниже нуля для небольших отрицательных входных данных, прежде чем снова подняться к нулю. Считается, что это свойство улучшает выразительную силу нейронной сети, создавая более богатый градиентный ландшафт и предотвращая проблему затухания градиента, которая может замедлить или остановить процесс обучения в глубоких архитектурах. Гладкость кривой SiLU также является значительным преимуществом, поскольку она обеспечивает плавный градиент для алгоритмов оптимизации, таких как градиентный спуск.

SiLU в сравнении с другими функциями активации

SiLU предлагает несколько преимуществ по сравнению с другими часто используемыми функциями активации, что делает ее привлекательным выбором для современных архитектур глубокого обучения (DL).

ReLU (Rectified Linear Unit): В отличие от ReLU, который имеет резкое изменение в нуле и постоянный нулевой градиент для всех отрицательных входных данных, SiLU является гладкой, непрерывной функцией. Эта гладкость помогает в процессе обратного распространения. Кроме того, SiLU позволяет избежать проблемы «умирающего ReLU», когда нейроны могут стать постоянно неактивными, если они постоянно получают отрицательные входные данные.
Leaky ReLU: В то время как Leaky ReLU также решает проблему умирающего нейрона, допуская небольшой, ненулевой градиент для отрицательных входных данных, гладкая немонотонная кривая SiLU иногда может приводить к лучшей генерализации и оптимизации в очень глубоких сетях.
Сигмоида: Функция Sigmoid является основным компонентом SiLU, но их приложения значительно различаются. Sigmoid обычно используется в выходном слое для задач бинарной классификации или в качестве механизма стробирования в RNN. В отличие от этого, SiLU предназначен для скрытых слоев и, как было показано, улучшает производительность в сверточных нейронных сетях (CNN).
GELU (Gaussian Error Linear Unit): SiLU часто сравнивают с GELU, другой сглаженной функцией активации, которая показала отличную производительность, особенно в моделях Transformer. Обе функции имеют схожие формы и характеристики производительности, при этом выбор между ними часто сводится к эмпирическим результатам настройки гиперпараметров.

Применение в AI и машинном обучении

Баланс эффективности и производительности сделал SiLU популярным выбором в различных современных моделях.

Детекция объектов: Продвинутые модели обнаружения объектов, включая версии Ultralytics YOLO, используют SiLU в своих скрытых слоях. Например, в таких приложениях, как автономные транспортные средства, которые полагаются на обнаружение в реальном времени, SiLU помогает модели более эффективно изучать сложные признаки из данных датчиков, повышая точность обнаружения пешеходов, дорожных знаков и других транспортных средств. Это улучшенное изучение признаков имеет решающее значение для безопасности и надежности, особенно при обучении на крупномасштабных наборах данных, таких как COCO.
Классификация изображений: SiLU является ключевым компонентом в эффективных и мощных моделях классификации, таких как семейство моделей EfficientNet. В таких областях, как анализ медицинских изображений, способность SiLU сохранять градиентный поток помогает моделям изучать тонкие текстуры и узоры. Это полезно для таких задач, как классификация опухолей по МРТ-снимкам или выявление заболеваний по рентгеновским снимкам грудной клетки, где первостепенное значение имеет высокая точность.

Реализация

SiLU легко доступна в основных фреймворках глубокого обучения, что упрощает ее включение в новые или существующие модели.

PyTorch: Реализовано как torch.nn.SiLU, с официальным Документация PyTorch для SiLU доступно.
TensorFlow: Доступно как tf.keras.activations.swish или tf.keras.activations.silu, описанный в Документация TensorFlow для SiLU.

Платформы, такие как Ultralytics HUB, поддерживают обучение моделей и изучение различных вариантов развертывания для моделей, использующих передовые компоненты, такие как SiLU. Постоянные исследования и ресурсы от таких организаций, как DeepLearning.AI, помогают специалистам эффективно использовать такие функции. Выбор функции активации остается важной частью разработки эффективных архитектур нейронных сетей, и SiLU представляет собой значительный шаг вперед в этой области.

SiLU (Sigmoid Linear Unit)

Обучайте модели Ultralytics YOLO для оптимизации рабочих процессов в различных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте AI-модели за секунды с Ultralytics YOLO

Как работает функция SiLU

SiLU в сравнении с другими функциями активации

Применение в AI и машинном обучении

Реализация

Читать больше в этой категории

Краткое руководство для начинающих о том, как обучить модель искусственного интеллекта

Из Дубая с глубоким пониманием: Основные итоги саммита GDG MENA-T Summit 2025

Изучение ансамблевого обучения и его роли в ИИ и ОД

Присоединяйтесь к сообществу Ultralytics