Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

ReLU (Rectified Linear Unit) — выпрямитель линейного блока

Откройте для себя возможности ReLU, ключевой функции активации в глубоком обучении, позволяющей эффективным нейронным сетям изучать сложные закономерности для ИИ и машинного обучения.

Выпрямленный линейный элемент, или ReLU, является фундаментальной функцией активации, которая стала краеугольным камнем современного глубокого обучения (DL). Он ценится за свою простоту и эффективность, внося нелинейность в нейронную сеть (NN) и при этом являясь вычислительно эффективным. Его основная роль заключается в определении выхода нейрона. Функция проста: если входное значение положительное, оно пропускает значение без изменений; если входное значение равно нулю или отрицательное, оно выводит ноль. Это простое правило помогает сетям изучать сложные закономерности, выборочно активируя нейроны, что делает его выбором по умолчанию для скрытых слоев во многих архитектурах.

Как работает ReLU

В отличие от более гладких функций активации, таких как Sigmoid или Tanh, поведение ReLU является кусочно-линейным. Эта характеристика предлагает несколько значительных преимуществ для обучения глубоких нейронных сетей.

  • Вычислительная эффективность: Простая условная операция функции очень быстро вычисляется на GPU или CPU, что сокращает общее время, необходимое как для обучения, так и для вывода. Это является ключевой причиной ее широкого распространения в крупномасштабных моделях.
  • Смягчение исчезающих градиентов: Одной из основных проблем при обучении глубоких сетей является проблема исчезающего градиента, когда градиенты становятся чрезвычайно малыми во время обратного распространения, замедляя или останавливая процесс обучения. Поскольку производная ReLU является константой 1 для всех положительных входов, она поддерживает здоровый поток градиента, позволяя более глубоким сетям учиться более эффективно. Обзор этой концепции можно найти в основополагающей статье о глубоком обучении с ReLU.
  • Создание разреженности: Выводя нуль для всех отрицательных входных данных, ReLU может приводить к разреженным представлениям, в которых активируется только подмножество нейронов. Эта разреженность в нейронных сетях может сделать модель более эффективной и надежной за счет снижения вероятности переобучения.

ReLU в сравнении с другими функциями активации

Хотя ReLU и является мощным решением по умолчанию, важно понимать ее ограничения и то, как она соотносится со своими вариантами.

  • Проблема «умирающего ReLU»: Основным недостатком ReLU является то, что нейроны могут стать неактивными, если их входные данные постоянно отрицательны. Эти «умирающие» нейроны всегда будут выдавать ноль, и их веса никогда не будут обновляться во время обучения, потому что градиент, проходящий через них, также равен нулю.
  • Leaky ReLU: Этот вариант решает проблему умирающего ReLU, допуская небольшой, ненулевой градиент для отрицательных входных данных. Вместо вывода нуля он выводит значение, например, 0,01, умноженное на входное значение. Это гарантирует, что нейроны всегда имеют некоторый градиент, поддерживая их активность.
  • SiLU (Sigmoid Linear Unit): Также известная как Swish, SiLU — это более плавная функция активации, которая часто превосходит ReLU в более глубоких моделях. Она используется в передовых архитектурах, включая современные модели, такие как Ultralytics YOLO11, хотя она и более вычислительно интенсивна. Выбор между ними часто включает настройку гиперпараметров для балансировки производительности и эффективности. Вы можете изучить различные функции активации, используя такие фреймворки, как PyTorch, который имеет обширную документацию по ReLU, и TensorFlow, который также предоставляет подробное руководство по реализации ReLU.

Применение в AI и ML

ReLU — это основная функция активации, особенно широко используемая в сверточных нейронных сетях (CNN), применяемых для задач компьютерного зрения (CV). Благодаря своей способности эффективно обрабатывать нелинейность, она идеально подходит для обработки изображений.

  • Анализ медицинских изображений: CNN, используемые в ИИ в здравоохранении, часто используют ReLU в своих скрытых слоях. Например, они обрабатывают сложную визуальную информацию с рентгеновских снимков или МРТ для обнаружения аномалий, таких как опухоли или переломы, помогая рентгенологам в диагностике (пример исследования из PubMed Central). Эффективность ReLU имеет решающее значение для быстрого анализа больших медицинских сканов из наборов данных, таких как обнаружение опухолей головного мозга.
  • Автономные транспортные средства: Системы для автономных транспортных средств, такие как системы, разработанные такими компаниями, как Waymo, в значительной степени полагаются на CNN с ReLU. Эти сети выполняют обнаружение объектов в реальном времени для идентификации пешеходов, других транспортных средств, светофоров и дорожной разметки, обеспечивая безопасную навигацию. Скорость ReLU имеет решающее значение для низкой задержки вывода, необходимой в приложениях для самоуправления.

Несмотря на распространенность в CNN, ReLU также используется в других типах нейронных сетей. В современных моделях часто используются варианты ReLU или другие эффективные функции активации. Вы можете обучать и развертывать такие модели, используя платформы, такие как Ultralytics HUB, используя руководства по советам по обучению моделей для достижения оптимальных результатов.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена