용어집

GELU(Gaussian Error Linear Unit)

GELU 활성화 함수가 GPT-4와 같은 Transformer 모델을 향상시켜 기울기 흐름, 안정성 및 효율성을 높이는 방법을 알아보세요.

GELU(Gaussian Error Linear Unit)는 최첨단 신경망 아키텍처, 특히 Transformer 모델에서 표준이 된 고성능 활성화 함수입니다. 부드럽고 단조롭지 않은 곡선으로 알려져 있으며, 이는 모델이 이전 함수보다 복잡한 패턴을 더 효과적으로 학습하는 데 도움이 됩니다. "Gaussian Error Linear Units (GELUs)" 논문에서 소개되었으며, dropout 및 ReLU와 같은 다른 함수의 속성을 결합하여 훈련 안정성과 모델 성능을 향상시킵니다.

GELU 작동 방식

모든 음수 값을 급격하게 차단하는 ReLU와 달리 GELU는 입력의 크기에 따라 입력에 가중치를 부여합니다. 표준 가우스 분포의 누적 분포 함수(CDF)를 입력에 곱하여 뉴런을 활성화할지 여부를 확률적으로 결정합니다. 즉, 입력이 음수일수록 "삭제"될 가능성이 높지만 전환은 갑작스럽지 않고 부드럽습니다. 이러한 확률적 정규화 속성은 기울기 소실 문제와 같은 문제를 방지하고 데이터에 대한 더 풍부한 표현을 허용하며, 이는 최신 딥 러닝 모델에 매우 중요합니다.

GELU 대 다른 활성화 함수

GELU는 다른 널리 사용되는 활성화 함수에 비해 여러 가지 장점을 제공하여 널리 채택되었습니다.

GELU vs. ReLU: 주요 차이점은 GELU의 부드러움입니다. ReLU는 계산적으로 간단하지만, 0에서 급격한 모서리를 가지기 때문에 때때로 뉴런이 영구적으로 비활성화되는 "dying ReLU" 문제를 일으킬 수 있습니다. GELU의 부드러운 곡선은 이러한 문제를 피하고, 보다 안정적인 경사 하강법을 촉진하며, 종종 더 나은 최종 정확도를 제공합니다.
GELU vs. Leaky ReLU: Leaky ReLU는 음수 입력에 대해 작은 음의 기울기를 허용하여 dying ReLU 문제를 해결하려고 시도합니다. 그러나 GELU의 비선형적인 곡선 형태는 더 동적인 활성화 범위를 제공하여 많은 딥러닝 작업에서 Leaky ReLU보다 뛰어난 성능을 보이는 것으로 나타났습니다.
GELU vs. SiLU (Swish): Swish라고도 하는 Sigmoid Linear Unit (SiLU)는 GELU와 매우 유사합니다. 둘 다 부드러운 비단조 함수이며 뛰어난 성능을 보였습니다. 둘 중 하나를 선택하는 것은 특정 아키텍처 및 데이터 세트에 대한 경험적 테스트에 따라 결정되는 경우가 많지만, 일부 연구에서는 SiLU가 특정 컴퓨터 비전 모델에서 약간 더 효율적일 수 있다고 제안합니다. Ultralytics YOLO와 같은 모델은 성능과 효율성의 균형을 위해 SiLU를 자주 활용합니다.

AI 및 딥 러닝 분야의 애플리케이션

GELU는 현재까지 개발된 가장 강력한 AI 모델의 핵심 구성 요소입니다.

자연어 처리(NLP): GELU는 Transformer 아키텍처의 피드 포워드 네트워크에서 표준 활성화 함수로 사용됩니다. 여기에는 거의 모든 최신 대규모 언어 모델(LLM)의 기반이 되는 BERT 및 GPT 시리즈와 같은 주요 모델이 포함됩니다. 복잡한 언어 패턴을 처리하는 능력 덕분에 기계 번역 및 텍스트 요약과 같은 작업에 이상적입니다. Hugging Face와 같은 기관의 자료에서 이러한 모델에 대해 자세히 알아볼 수 있습니다.
컴퓨터 비전(CV): NLP에서의 성공에 이어 GELU는 Vision Transformer(ViT) 모델에 채택되었습니다. 이러한 모델은 이미지 분류 및 객체 감지와 같은 작업을 위해 Transformer 아키텍처를 이미지 패치에 적용합니다. ViT의 성능은 시각적 정보 처리에서 GELU의 효과를 입증하여 기존의 합성곱 신경망(CNN)의 지배력에 도전합니다.

구현 및 사용법

GELU는 모든 주요 딥러닝 프레임워크에서 쉽게 사용할 수 있으므로 사용자 지정 모델에 쉽게 통합할 수 있습니다.

PyTorch: 다음으로 구현됨 torch.nn.GELU, 자세한 정보는 다음에서 확인할 수 있습니다. PyTorch GELU 공식 문서.
TensorFlow: 다음으로 사용 가능: tf.keras.activations.gelu, 자세한 내용은 다음에서 확인할 수 있습니다. TensorFlow API 문서.

개발자는 Ultralytics HUB와 같은 플랫폼에서 GELU를 사용하여 모델을 구축, 학습 및 배포할 수 있습니다. 이는 데이터 증강에서 최종 모델 배포에 이르기까지 전체 MLOps 라이프사이클을 간소화합니다.

GELU(Gaussian Error Linear Unit)

Ultralytics YOLO 모델을 학습시켜 산업 전반의 워크플로우를 간소화하세요.

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO로 몇 초 만에 AI 모델을 학습하세요.

GELU 작동 방식

GELU 대 다른 활성화 함수

AI 및 딥 러닝 분야의 애플리케이션

구현 및 사용법

이 카테고리에서 더 읽어보기

비트에서 큐비트까지: 양자 최적화가 AI를 재편하는 방법

초보자를 위한 AI 모델 훈련 방법에 대한 빠른 가이드

두바이에서 전하는 인사이트 GDG MENA-T 서밋 2025의 주요 시사점

Ultralytics 커뮤니티에 참여하세요