YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

GELU(Gaussian Error Linear Unit)

GELU 활성화 함수가 GPT-4와 같은 Transformer 모델을 향상시켜 기울기 흐름, 안정성 및 효율성을 높이는 방법을 알아보세요.

GELU(Gaussian Error Linear Unit)는 최첨단 신경망 아키텍처, 특히 Transformer 모델에서 표준이 된 고성능 활성화 함수입니다. 부드럽고 단조롭지 않은 곡선으로 알려져 있으며, 이는 모델이 이전 함수보다 복잡한 패턴을 더 효과적으로 학습하는 데 도움이 됩니다. "Gaussian Error Linear Units (GELUs)" 논문에서 소개되었으며, dropoutReLU와 같은 다른 함수의 속성을 결합하여 훈련 안정성과 모델 성능을 향상시킵니다.

GELU 작동 방식

모든 음수 값을 급격하게 차단하는 ReLU와 달리 GELU는 입력의 크기에 따라 입력에 가중치를 부여합니다. 표준 가우스 분포의 누적 분포 함수(CDF)를 입력에 곱하여 뉴런을 활성화할지 여부를 확률적으로 결정합니다. 즉, 입력이 음수일수록 "삭제"될 가능성이 높지만 전환은 갑작스럽지 않고 부드럽습니다. 이러한 확률적 정규화 속성은 기울기 소실 문제와 같은 문제를 방지하고 데이터에 대한 더 풍부한 표현을 허용하며, 이는 최신 딥 러닝 모델에 매우 중요합니다.

GELU 대 다른 활성화 함수

GELU는 다른 널리 사용되는 활성화 함수에 비해 여러 가지 장점을 제공하여 널리 채택되었습니다.

  • GELU vs. ReLU: 주요 차이점은 GELU의 부드러움입니다. ReLU는 계산적으로 간단하지만, 0에서 급격한 모서리를 가지기 때문에 때때로 뉴런이 영구적으로 비활성화되는 "dying ReLU" 문제를 일으킬 수 있습니다. GELU의 부드러운 곡선은 이러한 문제를 피하고, 보다 안정적인 경사 하강법을 촉진하며, 종종 더 나은 최종 정확도를 제공합니다.
  • GELU vs. Leaky ReLU: Leaky ReLU는 음수 입력에 대해 작은 음의 기울기를 허용하여 dying ReLU 문제를 해결하려고 시도합니다. 그러나 GELU의 비선형적인 곡선 형태는 더 동적인 활성화 범위를 제공하여 많은 딥러닝 작업에서 Leaky ReLU보다 뛰어난 성능을 보이는 것으로 나타났습니다.
  • GELU vs. SiLU (Swish): Swish라고도 하는 Sigmoid Linear Unit (SiLU)는 GELU와 매우 유사합니다. 둘 다 부드러운 비단조 함수이며 뛰어난 성능을 보였습니다. 둘 중 하나를 선택하는 것은 특정 아키텍처 및 데이터 세트에 대한 경험적 테스트에 따라 결정되는 경우가 많지만, 일부 연구에서는 SiLU가 특정 컴퓨터 비전 모델에서 약간 더 효율적일 수 있다고 제안합니다. Ultralytics YOLO와 같은 모델은 성능과 효율성의 균형을 위해 SiLU를 자주 활용합니다.

AI 및 딥 러닝 분야의 애플리케이션

GELU는 현재까지 개발된 가장 강력한 AI 모델의 핵심 구성 요소입니다.

구현 및 사용법

GELU는 모든 주요 딥러닝 프레임워크에서 쉽게 사용할 수 있으므로 사용자 지정 모델에 쉽게 통합할 수 있습니다.

개발자는 Ultralytics HUB와 같은 플랫폼에서 GELU를 사용하여 모델을 구축, 학습 및 배포할 수 있습니다. 이는 데이터 증강에서 최종 모델 배포에 이르기까지 전체 MLOps 라이프사이클을 간소화합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.