용어집

누수 ReLU

AI 및 ML을 위한 Leaky ReLU 활성화의 강력한 성능을 알아보세요. 고질적인 ReLU 문제를 해결하고 CV, NLP, GAN 등에서 모델 성능을 향상하세요!

누설 선형 유닛 또는 누설 ReLU는 신경망(NN) 에 사용되는 활성화 기능으로, 표준 선형 유닛(ReLU) 기능을 직접적으로 개선한 것입니다. 이 기능은 학습 중에 뉴런이 비활성화되어 학습이 중단되는 '죽어가는 ReLU' 문제를 해결하기 위해 고안되었습니다. 음수 입력값에 대해 0이 아닌 작은 기울기를 도입함으로써 누수 ReLU는 뉴런이 항상 기울기를 갖도록 하여 딥러닝(DL) 모델에서 보다 안정적이고 일관된 학습을 할 수 있도록 합니다. 이 간단한 수정은 다양한 아키텍처에서 효과가 입증되어 모델 성능과 훈련 역학을 개선하는 데 도움이 됩니다.

리키 리루가 죽어가는 뉴런 문제를 해결하는 방법

누수 ReLU의 주된 동기는 뉴런이 죽어가는 문제를 해결하기 위해서입니다. 표준 ReLU 함수에서 뉴런에 음수 입력이 들어오면 출력은 0이 됩니다. 뉴런이 지속적으로 음수 입력을 받으면 항상 0을 출력합니다. 따라서 역전파 중에 이 뉴런을 통해 흐르는 기울기 역시 0이 됩니다. 즉, 뉴런의 가중치가 더 이상 업데이트되지 않고 학습 과정의 참여를 효과적으로 중단하여 "죽게" 됩니다.

누수 ReLU는 장치가 활성화되어 있지 않을 때 작은 양의 기울기를 허용하여 이 문제를 해결합니다. 음수 입력에 대해 0을 출력하는 대신 작은 상수("누수")를 곱한 값을 출력합니다. 이렇게 하면 뉴런의 기울기가 0이 되지 않으므로 뉴런이 회복하고 학습을 계속할 수 있습니다. 이 접근 방식은 컨볼루션 네트워크에서 정류된 활성화의 경험적 평가에 관한 논문에서 처음 자세히 설명했습니다.

실제 애플리케이션

보다 안정적인 학습을 촉진하는 Leaky ReLU의 능력은 인공지능(AI)의 여러 영역에서 그 가치를 인정받고 있습니다.

  • 생성적 적대 네트워크(GAN): 생성적 적대 신경망(GAN)의 판별자 네트워크에는 누수 ReLU가 자주 사용됩니다. GAN은 생성자와 판별자 간의 섬세한 균형을 필요로 하며, 표준 ReLU에서 사라지는 그라데이션은 이 학습을 불안정하게 만들 수 있습니다. GAN에 대한 Google 개발자 블로그와 같은 리소스에서 설명한 것처럼, 누수 ReLU의 일관되고 0이 아닌 기울기는 두 네트워크가 더 효과적으로 학습하여 더 높은 품질의 합성 데이터를 생성하는 데 도움이 됩니다.
  • 객체 탐지 모델: 초창기지만 영향력 있는 객체 감지 모델에는 일부 버전의 YOLO를 포함해 Leaky ReLU가 사용되었습니다. 심층 컨볼루션 신경망(CNN)에서는 뉴런이 죽으면 모델이 중요한 특징을 학습하지 못할 수 있습니다. Leaky ReLU는 모든 뉴런이 활성 상태를 유지하도록 하여 COCO와 같은 다양한 데이터 세트에서 물체를 감지하는 모델의 능력을 향상시킵니다. 현재 많은 최신 아키텍처가 Ultralytics YOLO11과 같은 고급 기능을 사용하고 있지만, Leaky ReLU는 그 기반을 구축하는 데 핵심 구성 요소였습니다.

누수 ReLU와 다른 활성화 기능 비교

누수 ReLU는 기존 ReLU를 개선하기 위해 고안된 여러 활성화 기능 중 하나입니다. 다른 기능과의 관계를 이해하면 주어진 작업에 적합한 기능을 선택하는 데 도움이 됩니다.

  • ReLU: 주요 차이점은 ReLU는 음수 입력에 대해 완전히 비활성화된 반면, 누수 ReLU는 작고 일정한 기울기를 유지한다는 점입니다.
  • SiLU 및 GELU: SiLU(시그모이드 선형 단위 ) 및 GELU(가우스 오류 선형 단위) 와 같은 최신 활성화 함수는 부드럽고 비단조적인 곡선을 제공하여 때때로 정확도를 향상시킬 수 있습니다. 이러한 곡선은 트랜스포머와 같은 고급 모델에서 흔히 볼 수 있습니다. 하지만 Leaky ReLU의 단순한 선형 연산보다 계산적으로 더 복잡합니다. 활성화 함수에 대한 자세한 개요에서 더 자세한 비교를 확인할 수 있습니다.
  • 파라메트릭 ReLU(PReLU): PReLU는 학습 중에 누출 계수를 학습하여 고정된 하이퍼파라미터가 아닌 모델의 파라미터로 만드는 변형입니다.

최적의 활성화 함수 선택은 특정 아키텍처, 데이터 세트(예: 울트라 애널리틱스 데이터 세트에서 사용할 수 있는 데이터 세트), 하이퍼파라미터 튜닝 결과에 따라 달라지는 경우가 많습니다. 단순성, 낮은 계산 오버헤드, 뉴런 사멸을 방지하는 효과로 인해 Leaky ReLU는 여전히 강력한 선택입니다.

PyTorch와 TensorFlow와 같은 주요 딥 러닝 프레임워크는 PyTorch의 LeakyReLU와 TensorFlow의 LeakyReLU에 대한 공식 문서에서 볼 수 있듯이 간단한 구현을 제공합니다. 이러한 접근성 덕분에 개발자는 쉽게 실험하고 Ultralytics HUB와 같은 플랫폼을 사용하여 모델에 통합할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨