용어집

ReLU(정류된 선형 단위)

딥러닝의 핵심 활성화 기능으로, 효율적인 신경망으로 AI와 ML을 위한 복잡한 패턴을 학습할 수 있게 해주는 ReLU의 강력한 기능을 알아보세요.

정류 선형 유닛(ReLU)은 최신 딥러닝(DL)의 초석이 된 기본적인 활성화 함수입니다. 이 함수는 계산적으로 효율적이면서 신경망(NN) 에 비선형성을 도입하는 단순성과 효과로 높이 평가받고 있습니다. 주요 역할은 뉴런의 출력을 결정하는 것입니다. 입력이 양수이면 값을 그대로 통과시키고, 입력이 0 또는 음수이면 0을 출력하는 간단한 함수입니다. 이 간단한 규칙은 뉴런을 선택적으로 활성화하여 네트워크가 복잡한 패턴을 학습하는 데 도움이 되므로 많은 아키텍처에서 숨겨진 레이어의 기본 선택으로 사용됩니다.

ReLU 작동 방식

시그모이드나 탄과 같은 부드러운 활성화 함수와 달리 ReLU의 동작은 부분적으로 선형적입니다. 이러한 특성은 심층 신경망 훈련에 몇 가지 중요한 이점을 제공합니다.

  • 계산 효율성: 이 함수의 간단한 조건부 연산은 GPU나 CPU에서 매우 빠르게 계산할 수 있어 훈련과 추론에 필요한 전체 시간을 줄여줍니다. 이것이 바로 대규모 모델에서 널리 채택되는 주요 이유입니다.
  • 소실 경사 완화하기: 딥 네트워크 훈련의 주요 과제 중 하나는 소실 경사 문제인데, 역전파 중에 경사가 극도로 작아져 학습 과정이 느려지거나 중단되는 문제입니다. ReLU의 미분은 모든 양의 입력에 대해 상수 1이기 때문에 건강한 기울기 흐름을 유지하여 심층 네트워크가 더 효과적으로 학습할 수 있도록 합니다. 이 개념에 대한 개요는 ReLU를 사용한 딥 러닝에 관한 중요한 논문에서 확인할 수 있습니다.
  • 희소성 유도: ReLU는 모든 음수 입력에 대해 0을 출력함으로써 뉴런의 하위 집합만 활성화되는 희소성 표현을 유도할 수 있습니다. 신경망의 이러한 희소성은 과적합 가능성을 줄여 모델을 더 효율적이고 견고하게 만들 수 있습니다.

ReLU와 다른 활성화 기능 비교

ReLU는 강력한 기본값이지만, 그 한계와 다른 변종과 비교하는 방법을 이해하는 것이 중요합니다.

  • 죽어가는 ReLU 문제: ReLU의 가장 큰 단점은 입력이 지속적으로 음수인 경우 뉴런이 비활성화될 수 있다는 것입니다. 이러한 "죽어가는" 뉴런은 항상 0을 출력하며, 뉴런을 통과하는 기울기 또한 0이기 때문에 훈련 중에 가중치가 업데이트되지 않습니다.
  • 누수 ReLU: 이 변형은 음수 입력에 대해 0이 아닌 작은 기울기를 허용하여 죽어가는 ReLU 문제를 해결합니다. 0을 출력하는 대신 입력의 0.01배와 같은 값을 출력합니다. 이렇게 하면 뉴런이 항상 어느 정도의 기울기를 유지하여 활성 상태를 유지할 수 있습니다.
  • SiLU(시그모이드 선형 단위): Swish라고도 하는 SiLU는 더 부드러운 활성화 기능으로, 심층 모델에서 종종 ReLU보다 성능이 뛰어납니다. 계산 집약적이지만 Ultralytics YOLO11과 같은 최첨단 모델을 포함한 고급 아키텍처에서 사용됩니다. 이 둘 중 하나를 선택하려면 성능과 효율성의 균형을 맞추기 위한 하이퍼파라미터 튜닝이 수반되는 경우가 많습니다. ReLU에 대한 광범위한 문서가 있는 PyTorch나 자세한 ReLU 구현 가이드를 제공하는 TensorFlow와 같은 프레임워크를 사용해 다양한 활성화 기능을 살펴볼 수 있습니다.

AI 및 ML 분야의 애플리케이션

ReLU는 특히 컴퓨터 비전(CV) 작업에 사용되는 컨볼루션 신경망(CNN) 에서 주로 사용되는 핵심 활성화 함수입니다. 비선형성을 효율적으로 처리할 수 있어 이미지 데이터를 처리하는 데 이상적입니다.

  • 의료 이미지 분석: 의료 분야의 AI에 사용되는 CNN은 종종 숨겨진 레이어에 ReLU를 사용합니다. 예를 들어, 종양이나 골절과 같은 이상 징후를 감지하기 위해 엑스레이나 MRI의 복잡한 시각 정보를 처리하여 방사선 전문의의 진단을 지원합니다(PubMed Central의 연구 사례). ReLU의 효율성은 뇌종양 감지와 같은 대규모 의료 스캔 데이터 세트를 빠르게 분석하는 데 매우 중요합니다.
  • 자율주행 차량: Waymo와 같은 회사에서 개발한 자율주행 차량용 시스템은 ReLU가 포함된 CNN에 크게 의존합니다. 이러한 네트워크는 실시간 물체 감지를 수행하여 보행자, 다른 차량, 교통 신호 및 차선 표시를 식별하여 안전한 내비게이션을 가능하게 합니다. 자율 주행 애플리케이션에 필요한 짧은 추론 지연 시간을 위해서는 ReLU의 속도가 매우 중요합니다.

CNN에서 널리 사용되지만 ReLU는 다른 유형의 신경망에도 사용됩니다. 최신 모델은 종종 ReLU 변형 또는 기타 효율적인 활성화 함수를 활용합니다. 최적의 결과를 위해 모델 훈련 팁에 대한 가이드를 활용하여 Ultralytics HUB와 같은 플랫폼을 사용하여 이러한 모델을 훈련하고 배포할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨