용어집

K-메인 클러스터링

데이터를 클러스터로 그룹화하는 핵심적인 비지도 학습 알고리즘인 K-평균 클러스터링에 대해 알아보세요. 그 과정과 응용, 비교를 살펴보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

K-평균 클러스터링은 비지도 학습의 기본 알고리즘으로, 데이터 집합을 미리 결정된 수(K)의 서로 겹치지 않는 별개의 클러스터로 분할하는 데 널리 사용됩니다. 특히 사전 정의된 레이블이 없을 때 데이터 내에서 기본 그룹 구조를 발견하는 데 효과적입니다. K-평균의 주요 목적은 각 클러스터 내의 분산, 특히 각 데이터 포인트와 할당된 클러스터의 중심점(평균점) 사이의 제곱 거리의 합을 최소화하여 유사한 데이터 포인트를 함께 그룹화하는 것입니다. 이는 데이터 마이닝탐색적 데이터 분석의 초석이 되는 기법입니다.

K-평균 클러스터링 작동 방식

K-Means 알고리즘은 최적의 클러스터 할당을 찾기 위해 반복적인 프로세스를 통해 작동합니다. 이 프로세스에는 일반적으로 다음 단계가 포함됩니다:

  1. 초기화: 먼저 클러스터의 수인 K를 지정해야 합니다. 이 단계는 매우 중요한 단계이며 도메인 지식이나 실험이 필요한 경우가 많으며, 때로는 하이퍼파라미터 조정 기법이나 최적의 K를 찾기 위한 엘보우 방법 같은 방법을 사용하기도 합니다( 적절한 클러스터 수 선택하기 참조). 그런 다음, 데이터 세트에서 K 개의 데이터 포인트를 무작위로 선택하거나 K-Means++와 같은 보다 정교한 방법을 사용해 K 개의 초기 중심을 선택합니다.
  2. 할당 단계: 데이터 집합의 각 데이터 포인트는 가장 가까운 중심점에 할당됩니다. '근접성'은 일반적으로 유클리드 거리를 사용하여 측정하지만, 데이터 특성에 따라 다른 거리 메트릭을 사용할 수도 있습니다. 이 단계에서는 K개의 초기 클러스터를 형성합니다.
  3. 업데이트 단계를 클릭합니다: 새로 형성된 클러스터의 중심이 다시 계산됩니다. 새 중심은 해당 클러스터에 할당된 모든 데이터 요소의 평균(평균)입니다.
  4. 반복: 중지 기준이 충족될 때까지 2단계와 3단계를 반복합니다. 일반적인 기준으로는 중심이 더 이상 크게 움직이지 않거나, 데이터 포인트가 더 이상 클러스터 할당을 변경하지 않거나, 최대 반복 횟수에 도달하는 경우 등이 있습니다.

이러한 반복적인 개선을 통해 알고리즘은 클러스터의 압축과 분리를 점진적으로 개선합니다. K-Means는 단순성과 계산 효율성으로 높은 평가를 받고 있으며, 대규모 데이터 세트에 맞게 확장할 수 있습니다. 메커니즘과 구현에 대해 자세히 알아보려면 K-Means에 대한 스탠포드 CS221 노트 또는 scikit-learn 클러스터링 문서와 같은 리소스에서 자세한 내용을 확인할 수 있습니다.

K-평균 클러스터링의 애플리케이션

K-Means 클러스터링은 인공지능(AI)머신러닝(ML) 내 다양한 분야에서 응용 분야를 찾아냅니다. 다음은 두 가지 구체적인 예시입니다:

  • 고객 세분화: 기업들은 종종 구매 내역, 인구 통계 또는 웹사이트 행동에 따라 고객을 그룹화하기 위해 K-Means를 사용합니다. 예를 들어, 이커머스 기업에서는 고객을 '지출이 많은 단골 고객', '예산에 민감한 비정기 구매자' 등과 같은 그룹으로 분류할 수 있습니다. 이를 통해 타겟 마케팅 캠페인과 개인화된 상품 추천이 가능하며, 리테일의 AI에서 논의된 전략에 기여할 수 있습니다. 고객 세분화에 대한 이해는 마케팅 분석의 핵심입니다.
  • 이미지 압축 및 색상 양자화: 컴퓨터 비전(CV)에서는 손실 이미지 압축의 한 형태인 색상 양자화에 K-Means를 사용할 수 있습니다. 이 알고리즘은 이미지의 색상 팔레트에서 유사한 색상을 K 클러스터로 그룹화합니다. 그런 다음 각 픽셀의 색상이 해당 픽셀이 속한 클러스터의 중심 색상으로 대체됩니다. 이렇게 하면 이미지를 표현하는 데 필요한 색상 수가 크게 줄어들어 이미지가 압축됩니다. 이 기술은 다양한 이미지 처리 작업은 물론 예술 및 문화유산 보존 분야의 AI와 같은 분야에서도 유용합니다.

K-평균 클러스터링과 관련 개념 비교

올바른 도구를 선택하려면 K-Means와 다른 알고리즘의 차이점을 이해하는 것이 중요합니다:

  • K-Means와 DBSCAN: 둘 다 클러스터링 알고리즘이지만 작동 방식이 다릅니다. K-Means는 데이터를 미리 지정된 수(K)의 구형 클러스터로 분할하며 이상값에 민감할 수 있습니다. 반면, DBSCAN(밀도 기반 애플리케이션 노이즈 공간 클러스터링)은 밀도를 기반으로 포인트를 그룹화하여 임의의 형태의 클러스터를 찾고 이상값을 노이즈로 식별할 수 있습니다. 클러스터의 수를 미리 지정할 필요가 없습니다. 밀도 기반 클러스터링 방법에 대해 자세히 알아보세요.
  • K-평균과 지도 학습 비교: K-Means는 비지도 학습 방법으로, 레이블이 없는 데이터로 고유한 구조를 찾습니다. 반면, 물체 감지 또는 이미지 분류에 사용되는 것과 같은 지도 학습 알고리즘은 보이지 않는 새로운 데이터에 대한 결과를 예측하는 모델을 훈련하기 위해 레이블이 지정된 데이터(즉, 알려진 결과 또는 범주가 있는 데이터)가 필요합니다. Ultralytics 이러한 작업을 위한 다양한 지도 학습 데이터 세트를 제공합니다.
  • K-평균과 계층적 클러스터링 비교: K-평균은 평평한 클러스터 집합을 생성하는 반면, 계층적 클러스터링은 계층 또는 클러스터의 트리(덴드로그램)를 생성합니다. 이를 통해 다양한 수준의 세부 수준에서 클러스터 구조를 탐색할 수 있지만 일반적으로 특히 빅 데이터의 경우 K-Means보다 계산 집약적입니다.

K-Means를 마스터하면 데이터 구조를 탐색할 수 있는 강력한 토대를 마련할 수 있습니다. 다음과 같은 모델에서 직접 사용되지는 않지만 Ultralytics YOLO 와 같은 모델에 직접 사용되지는 않지만, 클러스터링을 이해하면 데이터 전처리 또는 데이터 세트 특성 분석에 도움이 될 수 있습니다. Ultralytics HUB와 같은 도구는 데이터 세트 관리와 모델 훈련에 도움이 될 수 있으며, 잠재적으로 클러스터링 기법에서 얻은 인사이트를 활용하여 높은 정확도가 필요한 작업을 처리하기 전에 데이터 분포를 더 잘 이해할 수 있습니다. 클러스터링 평가 지표 (실루엣 점수 또는 데이비스-볼딘 지수 등)에 대한 추가 탐색은 표준 YOLO 성능 지표를 보완하여 K-평균 결과의 품질을 평가하는 데도 도움이 될 수 있습니다. 보다 폭넓은 소개를 원한다면 IBM의 K-Means 설명이나 Coursera 또는 DataCamp와 같은 플랫폼의 입문 과정과 같은 리소스를 고려해 보세요. 더 많은 튜토리얼과 가이드는 Ultralytics 문서에서 찾을 수 있습니다.

모두 보기