용어집

SiLU(시그모이드 선형 단위)

SiLU(Swish) 활성화 기능이 객체 감지 및 NLP와 같은 AI 작업에서 딥 러닝 성능을 어떻게 향상시키는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

스위시 함수라고도 알려진 SiLU(시그모이드 선형 단위)는 딥 러닝(DL) 모델, 특히 신경망(NN)에서 사용되는 활성화 함수입니다. Google 연구원들이 제안한 것으로, ReLU나 시그모이드와 같은 기존 활성화 함수에 비해 모델 성능을 향상시키는 데 효과적이어서 인기를 얻고 있습니다. SiLU는 그라데이션 흐름과 모델 최적화에 도움이 될 수 있는 부드러움과 비단조적 특성으로 인해 높은 평가를 받고 있습니다. 더 자세한 내용은 일반적인 활성화 함수 개요를 참조하세요.

SiLU 작동 방식

SiLU는 입력값과 시그모이드 함수를 입력에 적용합니다. 본질적으로, SiLU(x) = x * sigmoid(x). 이 공식을 통해 SiLU는 시그모이드 구성 요소가 선형 입력의 범위를 결정하는 자체 게이팅 메커니즘으로 작동할 수 있습니다. x 를 통과합니다. 시그모이드 출력이 1에 가까우면 입력이 거의 변하지 않고 통과하며(양수 값의 경우 ReLU와 유사), 0에 가까우면 출력이 0을 향해 억제됩니다. SiLU는 ReLU와 달리 부드럽고 비단조적이며(입력이 증가해도 감소할 수 있음), 그 특성은 다음과 같습니다. 시그모이드 기능 세부 정보 컴포넌트입니다. 이 개념은 원본 Swish 종이.

SiLU의 장점

SiLU는 딥러닝 모델의 효율성에 기여하는 몇 가지 장점을 제공합니다:

  • 평활도: 평활도: ReLU와 달리 SiLU는 평활 함수이므로 미분이 연속적입니다. 이러한 평활성은 역전파 중 기울기 기반 최적화 알고리즘에 유리하여 보다 안정적인 훈련으로 이어질 수 있습니다.
  • 비단조성: 음수 입력에 대해 약간 하락했다가 0을 향해 상승하는 함수의 모양은 네트워크가 더 복잡한 패턴을 표현하는 데 도움이 될 수 있습니다.
  • 소실 그라디언트 피하기: 시그모이드 함수는 딥 네트워크에서 소실 그라데이션 문제로 인해 상당한 어려움을 겪을 수 있지만, SiLU는 특히 ReLU와 유사하게 선형적으로 작동하는 양의 입력에 대해 이 문제를 완화합니다.
  • 성능 향상: 경험적 연구에 따르면 ReLU를 SiLU로 대체하면 다양한 작업과 데이터 세트, 특히 심층 아키텍처에서 모델 정확도가 향상될 수 있는 것으로 나타났습니다.

다른 활성화 기능과의 비교

SiLU는 다른 일반적인 활성화 기능과는 차별화됩니다:

  • ReLU: ReLU 는 계산적으로 더 간단합니다(max(0, x)), 양수 값에 대해서는 선형적이지만 음수 입력에 대해서는 뉴런이 비활성화되는 '죽어가는 ReLU' 문제가 있습니다. 이 문제는 ReLU 설명. SiLU는 음수 값에 대해 0이 아닌 출력을 제공하므로 이 문제를 방지합니다.
  • 시그모이드: 시그모이드는 입력을 0과 1 사이의 범위로 매핑하지만 포화 및 소실 그라데이션이 발생하여 SiLU에 비해 딥 네트워크의 히든 레이어에 적합하지 않습니다.
  • 누수 ReLU: 누수 ReLU는 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 죽어가는 ReLU 문제를 해결합니다. SiLU는 보다 매끄러운 프로파일을 제공합니다.
  • GELU: GELU(가우스 오차 선형 단위) 는 SiLU와 유사한 성능을 발휘하는 또 다른 부드러운 활성화 함수입니다. SiLU는 일반적으로 GELU보다 계산적으로 약간 더 간단한 것으로 간주됩니다.

SiLU의 애플리케이션

SiLU는 다목적이며 딥러닝 모델이 사용되는 다양한 영역에 성공적으로 적용되었습니다:

구현

SiLU는 주요 딥 러닝 프레임워크에서 쉽게 사용할 수 있습니다:

Ultralytics HUB와 같은 플랫폼은 모델 학습을 지원하고 SiLU와 같은 고급 구성 요소를 활용하는 모델에 대한 다양한 배포 옵션을 탐색합니다. DeepLearning.AI와 같은 조직의 지속적인 연구와 리소스는 실무자가 이러한 기능을 효과적으로 활용할 수 있도록 도와줍니다.

모두 보기