시그모이드
AI에서 시그모이드 함수의 힘을 알아보세요. 어떻게 비선형성을 구현하고, 이진 분류를 지원하며, ML의 발전을 이끄는지 알아보세요!
시그모이드 함수는 머신러닝(ML) 과 딥러닝(DL)에서 널리 사용되는 활성화 함수입니다. 시그모이드 함수는 특징적인 "S"자형 또는 시그모이드 곡선을 생성하는 수학 함수입니다. 시그모이드의 주요 목적은 임의의 실수 값을 0과 1 사이의 범위로 '스쿼시'하는 것입니다. 이 출력은 종종 확률로 해석되기 때문에 결과의 가능성을 예측하는 것이 목표인 모델에서 특히 유용합니다. 신경망(NN)에 비선형성을 도입함으로써 단순한 선형 변환으로는 불가능한 데이터에서 복잡한 패턴을 학습할 수 있게 해줍니다.
역할 및 활용
시그모이드 함수는 입력을 확률과 같은 출력에 매핑하는 기능 덕분에 특정 유형의 작업에서 초석이 됩니다. 최신 심층 신경망의 숨겨진 계층에서는 덜 일반화되었지만, 특정 시나리오에서는 여전히 출력 계층의 표준 선택으로 남아 있습니다.
주요 애플리케이션
- 이진 분류: 이진 분류 문제에서 목표는 입력을 두 가지 클래스 중 하나로 분류하는 것입니다(예: 스팸 또는 스팸 아님, 질병 있음 또는 없음). 출력 계층의 시그모이드 함수는 입력이 양수 클래스에 속할 확률을 나타내는 0과 1 사이의 단일 값을 제공합니다. 예를 들어, 의료 이미지 분석 모델에서 시그모이드를 사용하여 종양이 악성일 확률이 90%임을 나타내는 0.9의 확률을 출력할 수 있습니다.
- 다중 레이블 분류: 입력이 하나의 클래스에만 속하는 다중 클래스 분류와 달리, 다중 레이블 작업을 사용하면 입력이 여러 레이블과 동시에 연결될 수 있습니다. 예를 들어, Ultralytics YOLO와 같은 객체 감지 모델은 이미지를 분석하여 '자동차', '보행자', '신호등'을 한꺼번에 식별할 수 있습니다. 이 경우 시그모이드 함수가 각 출력 뉴런에 독립적으로 적용되어 각 가능한 레이블에 대한 확률을 제공합니다. 객체 감지의 진화에 대해 자세히 알아볼 수 있습니다.
- RNN의 게이팅 메커니즘: 시그모이드 함수는 순환신경망(RNN)의 게이팅 메커니즘에서 핵심적인 구성 요소로, LSTM(장단기 메모리) 및 GRU(게이트 순환 유닛)와 같은 순환신경망의 핵심 구성 요소입니다. 이러한 게이트는 시그모이드를 사용하여 정보의 흐름을 제어하고 각 단계에서 어떤 데이터를 유지하거나 버릴지 결정합니다. 이 메커니즘은 순차적 데이터의 장기 종속성을 학습하는 데 매우 중요한데, LSTM 이해에 대한 자세한 블로그 게시물에서 설명합니다.
다른 활성화 기능과의 비교
시그모이드 기능을 다른 활성화 기능과 구별하여 사용 시기를 파악하는 것이 중요합니다.
- 소프트맥스: 소프트맥스 함수는 일반적으로 각 입력이 가능한 여러 클래스 중 정확히 하나에 속하는 다중 클래스 분류 문제에 사용됩니다. 각 출력에 대해 독립적인 확률을 계산하는 시그모이드와 달리 소프트맥스는 모든 클래스에 걸쳐 1로 합산되는 확률 분포를 계산합니다. 예를 들어, MNIST 데이터 세트에서 손으로 쓴 숫자를 분류하는 모델에서는 Softmax를 사용하여 0에서 9까지의 각 숫자에 단일 확률을 할당합니다.
- ReLU(정류 선형 단위): ReLU는 딥 네트워크의 히든 레이어에 대한 사실상의 표준이 되었습니다. 계산적으로 더 효율적이며, 역전파 중에 기울기가 극도로 작아져 학습 프로세스가 느려지거나 중단되는 시그모이드의 중요한 문제인 소실 기울 기 문제를 완화하는 데 도움이 됩니다. 그라디언트의 문제에 대한 자세한 내용은 이 DeepLearning.AI 문서에서 확인할 수 있습니다.
- SiLU(시그모이드 선형 단위): Swish라고도 하는 SiLU는 시그모이드에서 파생된 보다 현대적인 활성화 함수입니다. 고급 컴퓨터 비전 아키텍처를 포함한 심층적인 모델에서 종종 ReLU보다 더 나은 성능을 발휘합니다. 울트라트래픽 모델은 속도와 정확도의 균형을 맞추기 위해 고급 활성화 함수를 활용하는 경우가 많습니다.
최신 사용 및 가용성
오늘날 히든 레이어에서는 덜 일반적이지만, 시그모이드는 이진 및 다중 레이블 분류 작업에서 출력 레이어의 표준 선택으로 남아 있습니다. 또한 순차적 데이터를 처리하는 복잡한 아키텍처 내의 게이팅 메커니즘에서 핵심 구성 요소를 형성합니다.
시그모이드는 모든 주요 대학에서 쉽게 사용할 수 있습니다. 딥 러닝 프레임워크다음을 포함합니다. PyTorch (as torch.sigmoid
) 및 텐서플로 (as tf.keras.activations.sigmoid
). 다음과 같은 플랫폼 울트라애널리틱스 허브 다양한 활성화 기능을 활용한 모델을 지원하여 사용자가 다음을 수행할 수 있도록 합니다. 기차 그리고 배포 정교한 컴퓨터 비전 솔루션을 제공합니다.