고차원 데이터를 시각화하는 강력한 기법인 t-SNE를 살펴보세요. AI 및 ML에서의 용도, 이점 및 응용 분야에 대해 알아보세요.
t-분산 확률 이웃 임베딩(t-SNE)은 정교하고 비선형적인 차원 축소 기법 주로 고차원 데이터를 탐색하고 시각화하는 데 사용됩니다. 로렌스 반 데어 마텐과 제프리 Hinton이 개발한 이 통계적 방법을 사용하면 연구자 및 머신 러닝(ML) 실무자는 수백, 수천 개의 복잡한 데이터 세트를 수백 또는 수천 개의 차원을 가진 복잡한 데이터 세트를 2차원 또는 3차원 공간에 투영할 수 있습니다. 선형 방법과 달리 선형 방법과 달리, t-SNE는 데이터의 로컬 구조를 보존하는 데 탁월하여 다음과 같은 경우에 매우 유용합니다. 데이터 시각화 작업에서 클러스터와 데이터 포인트 간의 관계를 파악하는 것이 중요한 데이터 시각화 작업에 매우 유용합니다.
이 알고리즘은 데이터 포인트 간의 유사성을 공동 확률로 변환하는 방식으로 작동합니다. 원래의 고차원 공간에서 t-SNE는 가우스 분포를 사용하여 포인트 간의 유사성을 측정하며, 여기서 유사한 객체가 이웃으로 선택될 확률이 높습니다. 그런 다음 이러한 점을 저차원 공간인 저차원 공간("임베딩")으로 매핑하여 원본 데이터의 확률 분포와 의 확률 분포 차이를 최소화합니다. 이 프로세스는 주로 비지도 학습 원칙에 크게 의존합니다. 패턴을 찾기 때문에 비지도 학습 원리에 크게 의존합니다.
t-SNE의 중요한 측면은 시각화에서 '혼잡 문제'를 처리하는 능력입니다. 저차원 맵에서 헤비테일 학생의 t 분포를 사용하여 저차원 맵에서 포인트가 너무 조밀하게 겹치는 것을 방지합니다, 뚜렷한 클러스터를 시각적으로 분리할 수 있습니다.
고차원 데이터를 시각화하는 작업은 고차원 데이터 시각화는 AI 개발 라이프사이클의 기본 단계입니다. 는 모델이 다양한 도메인에서 데이터를 보는 방식에 대한 직관력을 제공합니다.
t-SNE는 다른 차원 축소 방법과 구별하는 것이 중요한데, 이는 다음과 같이 머신 러닝 파이프라인에서 서로 다른 용도로 사용되기 때문입니다. 다른 차원 축소 방법과 구별하는 것이 중요합니다.
다음 예는 널리 사용되는 Scikit-learn 라이브러리를 사용하여 고차원 데이터를 시각화하는 방법을 보여줍니다. 이 코드 조각은 합성 클러스터를 생성하고 이를 2D 공간에 투영하기 위해 t-SNE.
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.manifold import TSNE
# Generate synthetic high-dimensional data (100 samples, 50 features)
X, y = make_blobs(n_samples=100, n_features=50, centers=3, random_state=42)
# Apply t-SNE to reduce features from 50 to 2 dimensions
# Perplexity relates to the number of nearest neighbors to consider
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_embedded = tsne.fit_transform(X)
# Visualize the projected 2D data
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y)
plt.title("t-SNE Visualization of Features")
plt.show()
t-SNE는 강력하지만 신중한 하이퍼파라미터 튜닝이 필요합니다. 데이터의 로컬 및 글로벌 측면에 대한 관심의 균형을 맞추는 "데이터의 로컬 측면과 글로벌 측면 간의 주의 균형을 맞추는 '복잡성' 매개변수는 결과 플롯을 크게 바꿀 수 있습니다. 또한 이 알고리즘은 계산 비용이 많이 들기 때문에(O(N²) 복잡도), 단순한 투영 방식에 비해 매우 큰 데이터 세트의 경우 속도가 느립니다.
t-SNE 플롯에서 분리된 클러스터 사이의 거리는 원래 공간에서 정확한 물리적 거리를 나타내는 것은 아닙니다. 정확한 물리적 거리를 나타내는 것은 아니며, 주로 클러스터가 구분되어 있음을 나타냅니다. 임베딩의 대화형 탐색을 위해, TensorFlow 임베딩 프로젝터와 같은 도구가 모델 훈련과 함께 모델 훈련. AI 연구가 YOLO26 및 기타 엔드투엔드 아키텍처로 발전함에 따라 다른 엔드투엔드 아키텍처로 발전함에 따라 이러한 고차원 공간을 해석하는 것은 여전히 검증 및 모델 테스트.