Yolo 비전 선전
선전
지금 참여하기
용어집

차원 축소

차원 축소 기법으로 고차원 데이터를 간소화하세요. 지금 바로 ML 모델 성능, 시각화, 효율성을 개선하세요!

차원 축소는 머신 러닝에서 중요한 기술입니다. 머신 러닝(ML) 에서 중요한 기술입니다. 고차원 데이터를 저차원 표현으로 변환하는 데 사용되는 중요한 기술입니다. 이 프로세스는 원본 데이터의 가장 의미 있는 속성은 유지하면서 노이즈와 중복 변수를 제거하면서 원본 데이터의 가장 의미 있는 속성을 유지합니다. 입력 특징의 수를 줄임으로써(흔히 개발자는 입력 피처의 수를 줄임으로써 차원성의 저주, 즉 모델의 복잡성이 증가할수록 입력 공간의 복잡성이 증가함에 따라 모델 성능이 저하되는 현상을 완화할 수 있습니다. 데이터 차원을 효과적으로 관리하는 것은 데이터 전처리에서 데이터 전처리에서 중요한 단계입니다. 데이터 사전 처리의 중요한 단계입니다.

차원 축소의 중요성

방대한 수의 기능이 포함된 데이터 집합을 처리하는 데는 상당한 계산 및 통계적 어려움이 따릅니다. 차원 축소는 이러한 문제를 해결하여 다음과 같은 몇 가지 주요 이점을 제공합니다. AI 개발 수명 주기:

  • 과적합 완화: 샘플이 불충분한 고차원 데이터로 학습된 모델은 과적합이 발생하기 쉽습니다. 과적합이 발생하기 쉬우며, 일반화 가능한 패턴을 학습하기보다는 일반화 가능한 패턴을 학습하는 대신 노이즈를 기억하는 과적합이 발생하기 쉽습니다. 차원을 줄이면 모델 구조가 단순화됩니다.
  • 계산 효율성: 기능이 적다는 것은 처리할 데이터가 적다는 것을 의미합니다. 따라서 모델 학습 속도가 크게 빨라지고 모델 트레이닝의 속도를 크게 높이고 메모리 공간을 줄입니다.
  • 향상된 시각화: 인간의 직관은 3차원 이상의 데이터를 이해하는 데 어려움을 겪습니다. 데이터를 2D 또는 3D 공간으로 압축하는 기술은 통찰력 있는 데이터 시각화를 통해 클러스터와 관계.
  • 노이즈 감소: 데이터에서 가장 강력한 신호에 집중함으로써 차원 감소는 다음과 같은 이점을 제공합니다. 관련 없는 배경 정보를 필터링하여 전반적인 정확도를 향상시킬 수 있습니다. 배경 정보를 필터링하여 전반적인 정확도를 향상시킬 수 있습니다.

일반적인 차원 축소 기술

차원을 줄이는 방법은 일반적으로 선형과 비선형의 두 가지 범주로 나뉩니다.

주성분 분석(PCA)

주성분 분석(PCA) 은 가장 널리 사용되는 선형 기법입니다. 이 기법은 "주성분"(데이터의 최대 분산 방향)을 식별하여 데이터의 최대 분산 방향)을 식별하고 데이터를 투영하는 방식으로 작동합니다. 이렇게 하면 데이터 집합의 전체 구조는 유지하면서 데이터 집합의 전체 구조를 보존하는 동시에 정보가 적은 차원은 버립니다. 이는 비지도 학습 워크플로우의 비지도 학습 워크플로우의 필수 요소입니다.

t-분산 확률적 이웃 임베딩(t-SNE)

복잡한 구조를 시각화하는 데 적합합니다, t-SNE는 널리 사용되는 비선형 기법입니다. PCA와 달리 t-SNE는 로컬 이웃을 보존하는 데 탁월하므로 다음과 같은 경우에 이상적입니다. 고차원 공간에서 뚜렷한 클러스터를 분리하는 데 이상적입니다. 좀 더 자세히 알아보려면 Distill 문서에서 t-SNE를 효과적으로 사용하는 방법은 훌륭한 시각적 가이드를 제공합니다.

자동 인코더

자동 인코더는 일종의 입력 데이터를 잠재 공간 표현으로 압축한 다음 을 잠재 공간 표현으로 압축한 다음 재구성하도록 훈련된 신경망의 일종입니다. 이 접근 방식은 비선형 변환을 학습하며, 최신 딥 러닝(DL)의 최신 딥러닝(DL)의 기본입니다.

AI의 실제 적용 사례

차원 감소는 이론적인 차원이 아니라 다양한 산업 분야에서 실제 적용되고 있습니다.

  • 컴퓨터 비전: In 이미지 분류에서 원시 이미지에는 수천 개의 픽셀(크기)을 포함합니다. 컨볼루션 신경망(CNN)의 중추인 YOLO11와 같은 CNN은 본질적으로 차원 감소를 수행합니다. 이들은 보폭 컨볼루션과 풀링 레이어를 사용하여 공간 차원을 풍부한 피처 맵으로 압축합니다. 피처 맵으로 압축하여 모델이 객체를 효율적으로 detect 수 있도록 합니다. 효율적으로 감지할 수 있습니다.
  • 유전체학 및 생물정보학: 생물학적 데이터 세트에는 종종 수천 개의 유전자에 대한 발현 수준이 포함되어 있습니다. 유전자의 발현 수준을 포함합니다. 다음과 같은 기관의 연구원들은 국립 인간 게놈 연구소와 같은 기관의 연구원들은 차원 축소를 사용하여 질병과 관련된 유전자 마커를 식별하여 복잡한 생물학적 데이터를 실행 가능한 인사이트로 단순화합니다.
  • 자연어 처리: 텍스트 데이터는 매우 고차원적입니다. 다음과 같은 기술은 단어 임베딩과 같은 기술은 수천 개의 단어로 이루어진 어휘를 단어를 고밀도 벡터(예: 300차원)로 변환하여 다음과 같은 작업을 위한 의미적 의미를 포착합니다. 감정 분석.

차원 축소 대 특징 선택

차원 축소와 기능 선택을 구분하는 것이 중요합니다. 기능 선택을 구분하는 것이 중요합니다.

  • 특징 선택은 원래 특징의 하위 집합을 선택하고 나머지는 버리는 것을 포함합니다. 나머지는 버립니다(예: 인구통계 데이터 세트에서 '나이'와 '소득'만 유지하는 경우).
  • 차원 축소 (특히 특징 추출)은 원래 특징의 조합으로 원래 피처의 조합인 새로운 피처를 생성합니다. 예를 들어, PCA는 "Height" 와 "무게"를 "크기"를 나타내는 단일 주성분으로 결합할 수 있습니다.

코드 예제

다음 Python 스니펫은 널리 사용되는 Scikit-learn 라이브러리를 사용하여 다음을 수행합니다. 데이터 세트에 PCA를 적용합니다. 이것은 5개의 특징이 있는 데이터 집합을 의미 있는 2개의 차원으로 압축하는 방법을 보여줍니다.

import numpy as np
from sklearn.decomposition import PCA

# 1. Create dummy data: 3 samples, 5 features each
X = np.array([[10, 20, 30, 40, 50], [15, 25, 35, 45, 55], [12, 22, 32, 42, 52]])

# 2. Initialize PCA to reduce dimensionality to 2 components
pca = PCA(n_components=2)

# 3. Fit and transform the data to lower dimensions
X_reduced = pca.fit_transform(X)

print(f"Original shape: {X.shape}")  # Output: (3, 5)
print(f"Reduced shape: {X_reduced.shape}")  # Output: (3, 2)

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기