용어집

차원 감소

차원 축소 기법으로 고차원 데이터를 간소화하세요. 지금 바로 ML 모델 성능, 시각화 및 효율성을 개선하세요!

차원 축소는 데이터 세트에서 변수 또는 차원이라고도 하는 특징의 수를 줄이는 데 사용되는 머신 러닝(ML) 의 중요한 데이터 전처리 기법입니다. 주요 목표는 가능한 한 많은 의미 있는 정보를 유지하면서 고차원 데이터를 저차원 표현으로 변환하는 것입니다. 이 프로세스는 모델을 단순화하고, 계산 복잡성을 줄이고, 특징의 수가 증가함에 따라 성능이 저하되는 '차원의 저주'라고 알려진 일반적인 문제를 완화하는 데 필수적입니다. 이러한 기술을 효과적으로 적용하는 것은 AI 개발 라이프사이클의 핵심 부분입니다.

차원 감소가 중요한 이유는 무엇인가요?

고차원 데이터로 작업할 때는 몇 가지 문제가 발생합니다. 기능이 너무 많은 데이터 세트에 대해 학습된 모델은 지나치게 복잡해져 모델이 기본 패턴 대신 노이즈를 학습하는 과적합으로 이어질 수 있습니다. 또한 피처가 많을수록 더 많은 연산 능력과 스토리지가 필요하므로 학습 시간과 비용이 증가합니다. 차원 축소는 이러한 문제를 다음과 같이 해결합니다:

  • 모델 단순화: 기능이 적을수록 해석하기 쉽고 과적합 가능성이 적은 단순한 모델을 만들 수 있습니다.
  • 성능 향상: 관련성이 없거나 중복된 특징(노이즈)을 제거함으로써 모델은 데이터에서 가장 중요한 신호에 집중할 수 있어 정확도와 일반화가 향상되는 경우가 많습니다.
  • 계산 부하 감소: 저차원 데이터는 모델 학습 속도를 크게 높이고 실시간 추론에 필수적인 메모리 요구량을 줄여줍니다.
  • 시각화 향상: 3차원 이상의 데이터를 시각화하는 것은 불가능합니다. t-SNE와 같은 기술은 데이터를 2차원 또는 3차원으로 축소하여 통찰력 있는 데이터 시각화를 가능하게 합니다.

일반적인 기술

차원 축소에는 특징 선택과 특징 추출이라는 두 가지 주요 접근 방식이 있습니다.

  • 특징 선택: 이 접근 방식은 원래 특징의 하위 집합을 선택하고 나머지는 버리는 것입니다. 새로운 피처를 생성하지 않으므로 결과 모델의 해석 가능성이 높습니다. 이 방법은 종종 필터, 래퍼 또는 임베디드 기법으로 분류됩니다.
  • 특징 추출: 이 접근 방식은 기존 데이터의 조합으로 새로운 기능을 만들어 고차원 공간에서 더 적은 차원의 공간으로 데이터를 변환합니다. 널리 사용되는 기법에는 다음이 포함됩니다:
    • 주성분 분석(PCA): 데이터의 주성분(분산이 가장 큰 방향)을 식별하는 선형 기법입니다. 빠르고 해석이 가능하지만 복잡한 비선형 관계를 포착하지 못할 수도 있습니다.
    • 자동 인코더:비지도 학습에 사용되는 신경망의 일종으로, 효율적이고 압축된 데이터 표현을 학습할 수 있습니다. 비선형 구조를 학습하는 데 강력하지만 PCA보다 더 복잡합니다.
    • t-SNE(t-분산 확률적 이웃 임베딩): 기본 클러스터와 로컬 구조를 드러내어 고차원 데이터를 시각화하는 데 탁월한 비선형 기법입니다. 계산 비용 때문에 다른 ML 모델의 전처리 단계보다는 탐색에 주로 사용됩니다.

차원 축소와 관련 개념 비교

차원 축소를 피처 엔지니어링과 같은 관련 개념과 구별하는 것이 중요합니다. 피처 엔지니어링은 모델 성능을 개선하기 위해 변수를 생성, 선택, 변환하는 광범위한 프로세스인 반면, 차원 축소는 구체적으로 피처의 수를 줄이는 데 초점을 맞춥니다. 이는 피처 엔지니어링의 하위 분야로 간주할 수 있습니다.

마찬가지로 차원 축소의 결과는 압축된 데이터이지만, ZIP과 같은 일반적인 데이터 압축 알고리즘의 주요 목표인 저장 공간 크기 감소가 아니라 모델 성능을 개선하는 것이 주된 목표입니다.

AI 및 ML 분야의 애플리케이션

차원 축소 기능은 많은 인공지능(AI) 및 머신러닝 애플리케이션에서 필수적입니다:

  • 컴퓨터 비전(CV): 이미지에는 방대한 양의 픽셀 데이터가 포함되어 있습니다. Ultralytics YOLO와 같은 모델에 사용되는 컨볼루션 신경망(CNN)의 고유한 특징 추출은 이 차원을 줄여줍니다. 이를 통해 모델은 물체 감지 또는 이미지 분류와 같은 작업에 관련된 패턴에 집중하여 처리 속도를 높이고 모델 성능을 개선할 수 있습니다.
  • 생물정보학: 게놈 데이터 분석에는 수천 개의 유전자 발현(특징)이 포함된 데이터 세트가 포함되는 경우가 많습니다. 차원 축소는 연구자들이 질병이나 생물학적 기능과 관련된 중요한 패턴을 식별하는 데 도움이 되며, 복잡한 생물학적 데이터를 보다 쉽게 관리할 수 있게 해줍니다. Nature Methods와 같은 저널에 발표된 연구들은 종종 이러한 기술을 활용합니다.
  • 자연어 처리(NLP): 텍스트 데이터는 TF-IDF나 단어 임베딩과 같은 기술을 사용해 고차원 공간에서 표현할 수 있습니다. 차원 축소는 문서 분류나 감정 분석과 같은 작업을 위해 이러한 표현을 단순화하는 데 도움이 됩니다.
  • 데이터 시각화: t-SNE와 같은 기술은 고차원 데이터 세트를 2D 또는 3D로 플로팅하는 데 매우 유용합니다. 이를 통해 사람은 데이터 내의 잠재적인 구조나 관계를 시각적으로 검사하고 이해할 수 있으며, 이는 Ultralytics HUB와 같은 플랫폼에서 복잡한 데이터 세트와 모델을 관리하는 데 유용합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨