용어집

t-분산 확률적 이웃 임베딩(t-SNE)

고차원 데이터를 시각화하는 강력한 기술인 t-SNE에 대해 알아보세요. AI와 머신러닝에서의 사용, 이점 및 응용 분야에 대해 알아보세요.

t 분산 확률적 이웃 임베딩(t-SNE)은 데이터 시각화에 주로 사용되는 강력한 비선형 차원 축소 기법입니다. 머신 러닝(ML) 분야의 연구자와 실무자는 이를 통해 고차원 데이터 세트를 저차원 공간(일반적으로 2D 또는 3D 플롯)에서 시각화할 수 있습니다. 로렌스 반 데어 마텐과 제프리 힌튼이 개발한 이 도구의 가장 큰 장점은 다른 기술로는 놓칠 수 있는 클러스터나 다양체와 같은 데이터의 기본 로컬 구조를 드러내는 놀라운 능력입니다. 구현은 Scikit-learn과 같은 라이브러리와 PyTorch와 같은 프레임워크에서 널리 사용할 수 있습니다.

t-SNE의 핵심 아이디어는 저차원 맵에서 유사한 데이터 포인트를 서로 가깝게, 서로 다른 포인트를 멀리 배치하는 것입니다. 데이터 포인트 사이의 고차원 유클리드 거리를 유사성을 나타내는 조건부 확률로 변환하여 이를 달성합니다. 그런 다음 저차원 맵에서 유사한 확률 분포를 사용하여 이 두 분포 사이의 차이를 최소화합니다.

Ai 및 Ml의 애플리케이션

t-SNE는 인공지능(AI)의 다양한 영역에서 시각적 탐색을 위해 널리 사용되고 있습니다.

  • 신경망 특징 시각화하기: 컴퓨터 비전(CV)에서 t-SNE는 딥 러닝 모델이 학습한 내용을 이해하는 데 매우 유용합니다. 예를 들어, 이미지 분류를 위해 훈련된 CNN(Convolutional Neural Network) 의 중간 레이어에서 특징 임베딩을 가져와서 t-SNE를 사용하여 플로팅할 수 있습니다. Ultralytics YOLO 모델과 같은 모델이 CIFAR-10과 같은 데이터 세트에서 잘 훈련된 경우, 결과 플롯에는 다양한 이미지 카테고리(예: "고양이", "개", "자동차")에 해당하는 뚜렷한 클러스터가 표시됩니다. 이를 통해 모델의 판별력을 시각적으로 확인할 수 있습니다.
  • 텍스트 데이터 탐색: 자연어 처리(NLP)에서 t-SNE는 Word2Vec 또는 GloVe와 같은 고차원적인 단어 임베딩을 시각화할 수 있습니다. 이는 단어 간의 의미 관계를 이해하는 데 도움이 됩니다. 예를 들어 '왕', '여왕', '왕자', '공주'와 같은 단어가 함께 모여 있는 것을 볼 수 있습니다. 이러한 시각화는 텍스트 코퍼스를 탐색하고 문서 분류와 같은 작업에 사용되는 언어 모델을 디버깅하는 데 유용합니다.
  • 생물정보학 및 의료 영상: 연구자들은 마이크로어레이의 유전자 발현 패턴과 같은 복잡한 생물학적 데이터를 시각화하여 세포 집단이나 질병의 하위 유형을 식별하기 위해 t-SNE를 사용합니다. 또한 뇌종양 데이터 세트에서와 같이 다양한 유형의 조직이나 종양을 클러스터링하기 위해 의료 이미지 분석에도 사용됩니다.

T-SNE 대.. 기타 기술

t-SNE를 다른 차원 축소 방법과 구별하는 것이 중요합니다.

  • 주성분 분석(PCA): PCA는 데이터의 최대 분산을 보존하는 데 초점을 맞춘 선형 기법으로, 대규모의 글로벌 구조를 보존하는 데 해당합니다. 이와 대조적으로, t-SNE는 비선형적인 방법으로 국소적인 구조(즉, 개별 데이터 포인트가 어떻게 그룹화되는지)를 드러내는 데 탁월합니다. PCA는 더 빠르고 결정론적이지만, 선형적 특성으로 인해 t-SNE가 포착할 수 있는 복잡한 관계를 포착하지 못할 수 있습니다. 계산 부하와 노이즈를 줄이기 위해 t-SNE를 적용하기 전에 먼저 PCA를 사용해 데이터 집합을 중간 정도의 차원 수(예: 30-50개)로 축소한 후 t-SNE를 적용하는 것이 일반적인 관행입니다.
  • 자동 인코더: 자동 인코더는 강력한 비선형 데이터 표현을 학습할 수 있는 일종의 신경망입니다. PCA와 t-SNE보다 유연하지만, 해석이 어렵고 훈련 비용이 더 많이 드는 경우가 많습니다. 주로 직접 시각화보다는 특징 추출에 사용됩니다.

고려 사항 및 제한 사항

t-SNE는 강력하지만 사용자가 고려해야 할 몇 가지 제한 사항이 있습니다.

  • 계산 비용: 이 알고리즘은 데이터 포인트의 수에 있어 시간과 공간의 복잡성이 이차적이기 때문에 수십만 개의 샘플이 있는 데이터 세트의 경우 속도가 느립니다. 반스-헛 t-SNE와 같은 기술은 상당한 성능 향상을 제공합니다.
  • 하이퍼파라미터 감도: 결과는 하이퍼파라미터, 특히 각 점의 가까운 이웃 수에 대한 추측인 '복잡도'에 의해 크게 영향을 받을 수 있습니다. 보편적으로 가장 좋은 하나의 퍼플렉서티 값은 없습니다. 이러한 효과를 이해하는 데 도움이 되는 훌륭한 자료는 Distill 문서"t-SNE를 효과적으로 사용하는 방법"입니다.
  • 글로벌 구조 해석: t-SNE 시각화는 신중하게 해석해야 합니다. 최종 플롯에서 클러스터의 상대적 크기와 클러스터 사이의 거리가 원래 고차원 공간에서의 실제 분리를 반드시 반영하는 것은 아닙니다. 알고리즘의 초점은 전역 지오메트리가 아닌 로컬 이웃을 보존하는 데 있습니다. 텐서플로 프로젝터와 같은 도구를 사용하면 대화형 탐색이 가능하므로 직관력을 키우는 데 도움이 될 수 있습니다. 이러한 분석의 관리 및 시각화는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨