Yolo 비전 선전
선전
지금 참여하기
용어집

t-분산 확률적 이웃 임베딩 (t-SNE)

고차원 데이터를 시각화하는 강력한 기법인 t-SNE를 살펴보세요. AI 및 ML에서의 용도, 이점 및 응용 분야에 대해 알아보세요.

t-분산 확률 이웃 임베딩(t-SNE)은 정교하고 비선형적인 차원 축소 기법 주로 고차원 데이터를 탐색하고 시각화하는 데 사용됩니다. 로렌스 반 데어 마텐과 제프리 Hinton이 개발한 이 통계적 방법을 사용하면 연구자 및 머신 러닝(ML) 실무자는 수백, 수천 개의 복잡한 데이터 세트를 수백 또는 수천 개의 차원을 가진 복잡한 데이터 세트를 2차원 또는 3차원 공간에 투영할 수 있습니다. 선형 방법과 달리 선형 방법과 달리, t-SNE는 데이터의 로컬 구조를 보존하는 데 탁월하여 다음과 같은 경우에 매우 유용합니다. 데이터 시각화 작업에서 클러스터와 데이터 포인트 간의 관계를 파악하는 것이 중요한 데이터 시각화 작업에 매우 유용합니다.

t-SNE 작동 방식

이 알고리즘은 데이터 포인트 간의 유사성을 공동 확률로 변환하는 방식으로 작동합니다. 원래의 고차원 공간에서 t-SNE는 가우스 분포를 사용하여 포인트 간의 유사성을 측정하며, 여기서 유사한 객체가 이웃으로 선택될 확률이 높습니다. 그런 다음 이러한 점을 저차원 공간인 저차원 공간("임베딩")으로 매핑하여 원본 데이터의 확률 분포와 의 확률 분포 차이를 최소화합니다. 이 프로세스는 주로 비지도 학습 원칙에 크게 의존합니다. 패턴을 찾기 때문에 비지도 학습 원리에 크게 의존합니다.

t-SNE의 중요한 측면은 시각화에서 '혼잡 문제'를 처리하는 능력입니다. 저차원 맵에서 헤비테일 학생의 t 분포를 사용하여 저차원 맵에서 포인트가 너무 조밀하게 겹치는 것을 방지합니다, 뚜렷한 클러스터를 시각적으로 분리할 수 있습니다.

AI 및 ML에서의 응용 분야

고차원 데이터를 시각화하는 작업은 고차원 데이터 시각화는 AI 개발 라이프사이클의 기본 단계입니다. 는 모델이 다양한 도메인에서 데이터를 보는 방식에 대한 직관력을 제공합니다.

  • 컴퓨터 비전 특징 분석: In 컴퓨터 비전(CV)에서 엔지니어들은 종종 t-SNE를 사용하여 딥러닝(DL) 모델이 학습한 내용을 해석하는 데 사용합니다. 예를 들어 예를 들어, 학습된 모델의 백본에서 특징 벡터(임베딩)를 추출하여 YOLO11 모델의 백본에서 특징 벡터(임베딩)를 추출하면, t-SNE 는 이러한 벡터를 2D 평면에 투영할 수 있습니다. 모델이 잘 작동하면 유사한 물체의 이미지(예: 자동차, 보행자, 자전거 타는 사람 등)의 이미지가 서로 다른 클러스터로 그룹화되어 특징 추출 프로세스의 효율성을 검증합니다.
  • 자연어 처리(NLP): t-SNE는 단어 임베딩을 시각화하는 데 광범위하게 사용됩니다. 임베딩을 시각화하는 데 광범위하게 사용됩니다. 글로브 또는 트랜스포머 모델에서 생성된 단어 임베딩을 시각화하는 데 사용됩니다. 이러한 시각화에서 '왕'과 '왕'처럼 의미론적 의미가 비슷한 단어 '왕'과 '여왕'과 같이 의미론적 의미가 비슷한 단어는 가까운 이웃으로 나타납니다. 이는 연구자들이 포착한 의미 관계를 이해하는 데 도움이 됩니다. 자연어 처리(NLP) 모델에서 포착한 의미 관계를 이해하고 학습 데이터의 잠재적 편향을 진단하는 데 도움이 됩니다.

t-SNE와 관련 기술 비교

t-SNE는 다른 차원 축소 방법과 구별하는 것이 중요한데, 이는 다음과 같이 머신 러닝 파이프라인에서 서로 다른 용도로 사용되기 때문입니다. 다른 차원 축소 방법과 구별하는 것이 중요합니다.

  • 주성분 분석(PCA): PCA는 선형 기법으로 데이터의 전체 분산을 보존하는 데 중점을 둡니다. PCA는 계산 속도가 빠르고 결정론적이지만, 복잡한 비선형 관계를 포착하지 못하는 경우가 많습니다. 복잡한 비선형 관계를 포착하지 못하는 경우가 많습니다. 일반적인 워크플로에서는 PCA를 사용하여 원시 데이터를 30~50개 차원으로 축소한 다음 30~50개의 차원으로 축소한 다음, 최종 시각화를 위해 t-SNE를 사용하는 것이 일반적입니다. 이 하이브리드 접근 방식은 노이즈와 계산 부하를 줄입니다.
  • 자동 인코더: 자동 인코더는 데이터를 압축하고 재구성하도록 훈련된 신경망의 일종입니다. 자동 인코더는 비선형 표현을 학습할 수 있지만, t-SNE는 특히 다음과 같은 용도에 최적화되어 있습니다. 저장 또는 전송을 위한 데이터 압축보다는 플로팅 및 시각적 검사에 최적화되어 있습니다.

Python 구현 예제

다음 예는 널리 사용되는 Scikit-learn 라이브러리를 사용하여 고차원 데이터를 시각화하는 방법을 보여줍니다. 이 코드 조각은 합성 클러스터를 생성하고 이를 2D 공간에 투영하기 위해 t-SNE.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.manifold import TSNE

# Generate synthetic high-dimensional data (100 samples, 50 features)
X, y = make_blobs(n_samples=100, n_features=50, centers=3, random_state=42)

# Apply t-SNE to reduce features from 50 to 2 dimensions
# Perplexity relates to the number of nearest neighbors to consider
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_embedded = tsne.fit_transform(X)

# Visualize the projected 2D data
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y)
plt.title("t-SNE Visualization of Features")
plt.show()

제한 사항 및 모범 사례

t-SNE는 강력하지만 신중한 하이퍼파라미터 튜닝이 필요합니다. 데이터의 로컬 및 글로벌 측면에 대한 관심의 균형을 맞추는 "데이터의 로컬 측면과 글로벌 측면 간의 주의 균형을 맞추는 '복잡성' 매개변수는 결과 플롯을 크게 바꿀 수 있습니다. 또한 이 알고리즘은 계산 비용이 많이 들기 때문에(O(N²) 복잡도), 단순한 투영 방식에 비해 매우 큰 데이터 세트의 경우 속도가 느립니다.

t-SNE 플롯에서 분리된 클러스터 사이의 거리는 원래 공간에서 정확한 물리적 거리를 나타내는 것은 아닙니다. 정확한 물리적 거리를 나타내는 것은 아니며, 주로 클러스터가 구분되어 있음을 나타냅니다. 임베딩의 대화형 탐색을 위해, TensorFlow 임베딩 프로젝터와 같은 도구가 모델 훈련과 함께 모델 훈련. AI 연구가 YOLO26 및 기타 엔드투엔드 아키텍처로 발전함에 따라 다른 엔드투엔드 아키텍처로 발전함에 따라 이러한 고차원 공간을 해석하는 것은 여전히 검증 및 모델 테스트.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기