t-분산 확률적 이웃 임베딩 (t-SNE)
고차원 데이터를 시각화하는 강력한 기법인 t-SNE를 살펴보세요. AI 및 ML에서의 용도, 이점 및 응용 분야에 대해 알아보세요.
t-분산 스토캐스틱 이웃 임베딩(t-SNE)은 주로 데이터 시각화에 사용되는 강력한 비선형 차원 축소 기술입니다. 이를 통해 머신 러닝(ML) 분야의 연구원과 실무자는 고차원 데이터 세트를 저차원 공간(일반적으로 2D 또는 3D 플롯)에서 시각화할 수 있습니다. Laurens van der Maaten과 Geoffrey Hinton이 개발했으며, 다른 기술로는 놓칠 수 있는 클러스터 및 매니폴드와 같은 데이터의 기본 로컬 구조를 드러내는 뛰어난 능력이 주요 강점입니다. 구현은 Scikit-learn과 같은 라이브러리와 PyTorch와 같은 프레임워크에서 널리 사용할 수 있습니다.
t-SNE의 핵심 아이디어는 유사한 데이터 포인트를 가깝게 배치하고 유사하지 않은 포인트를 저차원 맵에서 멀리 떨어뜨려 놓는 것입니다. 이는 데이터 포인트 간의 고차원 유클리드 거리를 유사성을 나타내는 조건부 확률로 변환하여 이를 수행합니다. 그런 다음 저차원 맵에서 유사한 확률 분포를 사용하고 이 두 분포 간의 divergence를 최소화합니다.
AI 및 ML 분야의 애플리케이션
t-SNE는 다양한 인공 지능(AI) 영역에서 시각적 탐색을 위해 널리 사용됩니다.
- 신경망 특징 시각화: 컴퓨터 비전(CV)에서 t-SNE는 딥 러닝 모델이 학습한 내용을 이해하는 데 매우 중요합니다. 예를 들어, 이미지 분류를 위해 훈련된 Convolutional Neural Network(CNN)의 중간 레이어에서 특징 임베딩을 가져와서 t-SNE를 사용하여 플롯할 수 있습니다. Ultralytics YOLO 모델과 같은 모델이 CIFAR-10과 같은 데이터 세트에서 잘 훈련된 경우 결과 플롯은 서로 다른 이미지 범주(예: "고양이", "개", "자동차")에 해당하는 뚜렷한 클러스터를 보여줍니다. 이는 모델의 판별력을 시각적으로 확인할 수 있게 해줍니다.
- 텍스트 데이터 탐색: 자연어 처리 (NLP)에서 t-SNE는 Word2Vec 또는 GloVe와 같은 고차원 단어 임베딩을 시각화할 수 있습니다. 이는 단어 간의 의미적 관계를 이해하는 데 도움이 됩니다. 예를 들어 "왕", "여왕", "왕자" 및 "공주"와 같은 단어가 함께 클러스터링됩니다. 이러한 시각화는 텍스트 코퍼스를 탐색하고 문서 분류와 같은 작업에 사용되는 언어 모델을 디버깅하는 데 유용합니다.
- 생물 정보학 및 의료 영상: 연구자들은 t-SNE를 사용하여 마이크로어레이의 유전자 발현 패턴과 같은 복잡한 생물학적 데이터를 시각화하여 세포 집단 또는 질병 하위 유형을 식별합니다. 또한 의료 영상 분석에서 뇌종양 데이터 세트와 같이 다양한 유형의 조직 또는 종양을 클러스터링하는 데 사용됩니다.
T-SNE와 다른 기술 비교
t-SNE를 다른 차원 축소 방법과 구별하는 것이 중요합니다.
- 주성분 분석(PCA): PCA는 데이터에서 최대 분산을 보존하는 데 중점을 둔 선형 기술로, 이는 대규모의 전역 구조를 보존하는 것에 해당합니다. 대조적으로 t-SNE는 로컬 구조(즉, 개별 데이터 포인트가 함께 그룹화되는 방식)를 드러내는 데 탁월한 비선형 방법입니다. PCA는 더 빠르고 결정론적이지만 선형적인 특성으로 인해 t-SNE가 캡처할 수 있는 복잡한 관계를 캡처하지 못할 수 있습니다. 계산 부하와 노이즈를 줄이기 위해 t-SNE를 적용하기 전에 PCA를 먼저 사용하여 데이터 세트를 중간 차원 수(예: 30-50)로 줄이는 것이 일반적인 방법입니다.
- 오토인코더: 오토인코더는 강력한 비선형 데이터 표현을 학습할 수 있는 신경망의 한 유형입니다. PCA 및 t-SNE보다 유연하지만 해석하기 어렵고 학습하는 데 계산 비용이 더 많이 드는 경우가 많습니다. 주로 직접 시각화보다는 특징 추출에 사용됩니다.
고려 사항 및 제한 사항
t-SNE는 강력하지만 사용자가 고려해야 할 몇 가지 제한 사항이 있습니다.
- 계산 비용: 이 알고리즘은 데이터 포인트 수에 따라 2차 시간 및 공간 복잡도를 가지므로 수십만 개의 샘플이 있는 데이터 세트에서는 속도가 느립니다. Barnes-Hut t-SNE와 같은 기술은 상당한 성능 향상을 제공합니다.
- 하이퍼파라미터 민감도: 결과는 하이퍼파라미터, 특히 각 포인트가 갖는 가까운 이웃 수에 대한 추측인 "perplexity"에 의해 크게 영향을 받을 수 있습니다. 보편적으로 가장 좋은 perplexity 값은 없습니다. 이러한 효과를 이해하는 데 유용한 자료는 Distill 기사 "t-SNE 효과적으로 사용하는 방법"입니다.
- 전역 구조 해석: t-SNE 시각화는 주의해서 해석해야 합니다. 최종 플롯에서 클러스터의 상대적 크기와 클러스터 간의 거리는 원래 고차원 공간에서의 실제 분리를 반드시 반영하지는 않습니다. 이 알고리즘은 전역 지오메트리가 아닌 로컬 인접 영역을 보존하는 데 중점을 둡니다. TensorFlow Projector와 같은 도구를 사용하면 대화형 탐색이 가능하여 직관을 구축하는 데 도움이 될 수 있습니다. 이러한 분석의 관리 및 시각화는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.