YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

차원 축소

차원 축소 기법으로 고차원 데이터를 간소화하세요. 지금 바로 ML 모델 성능, 시각화, 효율성을 개선하세요!

차원 축소는 데이터 세트의 특징(변수 또는 차원이라고도 함) 수를 줄이는 데 사용되는 머신 러닝(ML)의 중요한 데이터 전처리 기술입니다. 주요 목표는 가능한 한 많은 의미 있는 정보를 유지하면서 고차원 데이터를 저차원 표현으로 변환하는 것입니다. 이 프로세스는 모델을 단순화하고, 계산 복잡성을 줄이고, 특징 수가 증가함에 따라 성능이 저하되는 '차원의 저주'라는 일반적인 문제를 완화하는 데 필수적입니다. 이러한 기술을 효과적으로 적용하는 것은 AI 개발 수명 주기의 핵심 부분입니다.

차원 축소가 중요한 이유는 무엇인가?

고차원 데이터를 다루는 것은 여러 가지 어려움을 야기합니다. 특징이 너무 많은 데이터 세트에서 학습된 모델은 지나치게 복잡해져 과적합으로 이어질 수 있습니다. 여기서 모델은 기본 패턴 대신 노이즈를 학습합니다. 또한 더 많은 특징은 더 많은 계산 능력과 스토리지를 필요로 하여 학습 시간과 비용을 증가시킵니다. 차원 축소는 다음을 통해 이러한 문제를 해결합니다.

  • 모델 단순화: 특징이 적을수록 해석하기 쉽고 과적합이 덜 발생하는 더 간단한 모델이 됩니다.
  • 성능 향상(Improving Performance): 관련 없거나 중복된 특징(노이즈)을 제거하여 모델은 데이터에서 가장 중요한 신호에 집중할 수 있으며 종종 더 나은 정확도(accuracy)와 일반화로 이어집니다.
  • 계산량 감소: 낮은 차원의 데이터는 모델 훈련 속도를 크게 향상시키고 메모리 요구 사항을 줄여 실시간 추론에 매우 중요합니다.
  • 시각화 개선: 3차원 이상의 데이터는 시각화할 수 없습니다. t-SNE와 같은 기술은 데이터를 2차원 또는 3차원으로 줄여 통찰력 있는 데이터 시각화를 가능하게 합니다.

일반적인 기법

차원 축소에는 크게 특징 선택과 특징 추출의 두 가지 접근 방식이 있습니다.

  • Feature Selection: 이 접근 방식은 원래 기능의 하위 집합을 선택하고 나머지는 버리는 것을 포함합니다. 새로운 기능을 생성하지 않으므로 결과 모델은 해석 가능성이 높습니다. 방법은 종종 필터, 래퍼 또는 임베디드 기술로 분류됩니다.
  • 특징 추출: 이 접근 방식은 이전 기능의 조합에서 새로운 기능을 생성하여 데이터를 고차원 공간에서 더 적은 차원의 공간으로 변환합니다. 널리 사용되는 기술은 다음과 같습니다.
    • 주성분 분석(PCA, Principal Component Analysis): 데이터에서 주성분(가장 높은 분산 방향)을 식별하는 선형 기법입니다. 빠르고 해석 가능하지만 복잡한 비선형 관계를 포착하지 못할 수 있습니다.
    • 오토인코더: 데이터의 효율적이고 압축된 표현을 학습할 수 있는 비지도 학습에 사용되는 신경망의 한 유형입니다. 비선형 구조를 학습하는 데 강력하지만 PCA보다 더 복잡합니다.
    • t-SNE (t-distributed Stochastic Neighbor Embedding): 기본 클러스터 및 로컬 구조를 드러내어 고차원 데이터를 시각화하는 데 탁월한 비선형 기술입니다. 계산 비용으로 인해 다른 ML 모델의 전처리 단계보다는 탐색에 자주 사용됩니다.

차원 축소와 관련 개념 비교

차원 축소를 특성 엔지니어링과 같은 관련 개념과 구별하는 것이 중요합니다. 특성 엔지니어링은 모델 성능을 향상시키기 위해 변수를 생성, 선택 및 변환하는 광범위한 프로세스인 반면, 차원 축소는 특히 특성 수를 줄이는 데 중점을 둡니다. 이는 특성 엔지니어링의 하위 분야로 간주될 수 있습니다.

마찬가지로, 차원 축소의 결과는 압축된 데이터이지만, 주요 목표는 저장 공간을 줄이는 것뿐만 아니라 모델 성능을 향상시키는 것입니다. 저장 공간을 줄이는 것은 ZIP과 같은 일반적인 데이터 압축 알고리즘의 주요 목표입니다.

AI 및 ML에서의 응용 분야

차원 축소는 많은 인공 지능(AI) 및 ML 응용 분야에서 매우 중요합니다.

  • 컴퓨터 비전(CV): 이미지는 방대한 양의 픽셀 데이터를 포함합니다. Ultralytics YOLO와 같은 모델에서 사용되는 합성곱 신경망(CNN)의 고유한 특징 추출은 이러한 차원을 줄입니다. 이를 통해 모델은 객체 감지 또는 이미지 분류와 같은 작업에 대한 관련 패턴에 집중하여 처리 속도를 높이고 모델 성능을 향상시킬 수 있습니다.
  • 생물 정보학: 게놈 데이터를 분석하는 데는 종종 수천 개의 유전자 발현(특성)이 포함된 데이터 세트가 포함됩니다. 차원 축소는 연구자가 질병 또는 생물학적 기능과 관련된 중요한 패턴을 식별하여 복잡한 생물학적 데이터를 보다 관리하기 쉽게 만드는 데 도움이 됩니다. Nature Methods와 같은 저널에 발표된 연구에서는 이러한 기법을 사용하는 경우가 많습니다.
  • 자연어 처리(NLP): 텍스트 데이터는 TF-IDF 또는 단어 임베딩과 같은 기술을 사용하여 고차원 공간에서 표현할 수 있습니다. 차원 축소는 문서 분류 또는 감성 분석과 같은 작업을 위해 이러한 표현을 단순화하는 데 도움이 됩니다.
  • 데이터 시각화(Data Visualization): t-SNE와 같은 기술은 고차원 데이터 세트를 2D 또는 3D로 플로팅하는 데 매우 유용합니다. 이를 통해 사람은 Ultralytics HUB와 같은 플랫폼에서 복잡한 데이터 세트 및 모델을 관리하는 데 유용한 데이터 내의 잠재적 구조 또는 관계를 시각적으로 검사하고 이해할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.