용어집

SiLU(시그모이드 선형 단위)

SiLU(Swish) 활성화 기능이 객체 감지 및 NLP와 같은 AI 작업에서 딥 러닝 성능을 어떻게 향상시키는지 알아보세요.

스위시 함수라고도 알려진 SiLU(시그모이드 선형 단위)는 딥 러닝(DL) 모델, 특히 신경망(NN)에서 사용되는 활성화 함수입니다. Google 연구원들이 제안한 것으로, ReLU나 시그모이드와 같은 기존 활성화 함수에 비해 모델 성능을 향상시키는 데 효과적이어서 인기를 얻고 있습니다. SiLU는 그라데이션 흐름과 모델 최적화에 도움이 될 수 있는 부드러움과 비단조적 특성으로 인해 높은 평가를 받고 있습니다. 더 자세한 내용은 일반적인 활성화 함수 개요를 참조하세요.

SiLU 작동 방식

SiLU는 입력값과 시그모이드 함수를 입력에 적용합니다. 본질적으로, SiLU(x) = x * sigmoid(x). 이 공식을 통해 SiLU는 시그모이드 구성 요소가 선형 입력의 범위를 결정하는 자체 게이팅 메커니즘으로 작동할 수 있습니다. x 를 통과합니다. 시그모이드 출력이 1에 가까우면 입력이 거의 변하지 않고 통과하며(양수 값의 경우 ReLU와 유사), 0에 가까우면 출력이 0을 향해 억제됩니다. SiLU는 ReLU와 달리 부드럽고 비단조적이며(입력이 증가해도 감소할 수 있음), 그 특성은 다음과 같습니다. 시그모이드 기능 세부 정보 컴포넌트입니다. 이 개념은 원본 Swish 종이.

SiLU의 장점

SiLU는 딥러닝 모델의 효율성에 기여하는 몇 가지 장점을 제공합니다:

평활도: 평활도: ReLU와 달리 SiLU는 평활 함수이므로 미분이 연속적입니다. 이러한 평활성은 역전파 중 기울기 기반 최적화 알고리즘에 유리하여 보다 안정적인 훈련으로 이어질 수 있습니다.
비단조성: 음수 입력에 대해 약간 하락했다가 0을 향해 상승하는 함수의 모양은 네트워크가 더 복잡한 패턴을 표현하는 데 도움이 될 수 있습니다.
소실 그라디언트 피하기: 시그모이드 함수는 딥 네트워크에서 소실 그라데이션 문제로 인해 상당한 어려움을 겪을 수 있지만, SiLU는 특히 ReLU와 유사하게 선형적으로 작동하는 양의 입력에 대해 이 문제를 완화합니다.
성능 향상: 경험적 연구에 따르면 ReLU를 SiLU로 대체하면 다양한 작업과 데이터 세트, 특히 심층 아키텍처에서 모델 정확도가 향상될 수 있는 것으로 나타났습니다.

다른 활성화 기능과의 비교

SiLU는 다른 일반적인 활성화 기능과는 차별화됩니다:

ReLU: ReLU 는 계산적으로 더 간단합니다(max(0, x)), 양수 값에 대해서는 선형적이지만 음수 입력에 대해서는 뉴런이 비활성화되는 '죽어가는 ReLU' 문제가 있습니다. 이 문제는 ReLU 설명. SiLU는 음수 값에 대해 0이 아닌 출력을 제공하므로 이 문제를 방지합니다.
시그모이드: 시그모이드는 입력을 0과 1 사이의 범위로 매핑하지만 포화 및 소실 그라데이션이 발생하여 SiLU에 비해 딥 네트워크의 히든 레이어에 적합하지 않습니다.
누수 ReLU: 누수 ReLU는 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 죽어가는 ReLU 문제를 해결합니다. SiLU는 보다 매끄러운 프로파일을 제공합니다.
GELU: GELU(가우스 오차 선형 단위) 는 SiLU와 유사한 성능을 발휘하는 또 다른 부드러운 활성화 함수입니다. SiLU는 일반적으로 GELU보다 계산적으로 약간 더 간단한 것으로 간주됩니다.

SiLU의 애플리케이션

SiLU는 다목적이며 딥러닝 모델이 사용되는 다양한 영역에 성공적으로 적용되었습니다:

객체 감지: SiLU는 다음과 관련된 일부 버전을 포함하여 최첨단 객체 탐지 모델의 아키텍처에 자주 사용됩니다. Ultralytics YOLO. 예를 들어, 차량과 보행자를 정확하게 감지하는 것은 자율 주행 시스템에서 매우 중요합니다.
이미지 분류: 이미지 분류를 위한 컨볼루션 신경망(CNN) 에서 강력한 성능을 보여 벤치마크 데이터 세트의 정확도를 높이는 데 기여했습니다. 의료 이미지 분석에서 다양한 유형의 조직을 분류하여 질병 진단을 지원하는 것이 그 예입니다.
자연어 처리(NLP): SiLU는 NLP 모델에서도 찾아볼 수 있으며, 텍스트 분류 및 기타 NLP 애플리케이션과 같은 작업의 성능을 향상시킵니다.
일반 컴퓨터 비전(CV): 이러한 특성으로 인해 감지 및 분류를 넘어 다양한 CV 작업에 강력한 후보가 될 수 있습니다.

구현

SiLU는 주요 딥 러닝 프레임워크에서 쉽게 사용할 수 있습니다:

PyTorch: 다음과 같이 구현됩니다. torch.nn.SiLU공식 SiLU용 PyTorch 문서 사용 가능.
TensorFlow: 다음과 같이 사용 가능 tf.keras.activations.swish 또는 tf.keras.activations.silu에 문서화되어 있습니다. SiLU용 TensorFlow 문서.

Ultralytics HUB와 같은 플랫폼은 모델 학습을 지원하고 SiLU와 같은 고급 구성 요소를 활용하는 모델에 대한 다양한 배포 옵션을 탐색합니다. DeepLearning.AI와 같은 조직의 지속적인 연구와 리소스는 실무자가 이러한 기능을 효과적으로 활용할 수 있도록 도와줍니다.

SiLU(시그모이드 선형 단위)

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

SiLU 작동 방식

SiLU의 장점

다른 활성화 기능과의 비교

SiLU의 애플리케이션

구현

블로그 더 보기

Ultralytics 커뮤니티 가입하기

SiLU(시그모이드 선형 단위)

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

SiLU 작동 방식

SiLU의 장점

다른 활성화 기능과의 비교

SiLU의 애플리케이션

구현

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련