YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

K-평균 군집화

데이터를 클러스터로 그룹화하는 핵심 비지도 학습 알고리즘인 K-평균 군집화에 대해 알아보세요. K-평균 군집화의 프로세스, 응용 분야 및 비교를 살펴보세요!

K-평균 군집화는 비지도 학습, 데이터 마이닝머신러닝(ML)에서 사용되는 기본적인 알고리즘입니다. 주요 목표는 데이터 세트를 미리 지정된 수의 고유하고 겹치지 않는 하위 그룹 또는 "클러스터"로 분할하는 것입니다. 이름의 "K"는 클러스터의 수를 나타냅니다. 이 알고리즘은 유사성을 기반으로 데이터 포인트를 함께 그룹화하여 작동하며, 유사성은 종종 점 사이의 유클리드 거리로 측정됩니다. 각 클러스터는 해당 클러스터 내의 모든 데이터 포인트의 평균인 중심점(centroid)으로 표시됩니다. 레이블이 지정되지 않은 데이터에서 기본 패턴과 구조를 검색하는 강력하면서도 간단한 방법입니다.

K-Means는 어떻게 작동하나요?

K-Means 알고리즘은 모든 데이터 포인트에 대해 최적의 클러스터 할당을 찾기 위해 반복적으로 작동합니다. 이 프로세스는 몇 가지 간단한 단계로 나눌 수 있습니다.

  1. 초기화: 먼저 클러스터의 수 K를 선택합니다. 그런 다음 K개의 초기 중심점을 데이터 세트의 특징 공간 내에 무작위로 배치합니다.
  2. 할당 단계: 학습 데이터의 각 데이터 포인트는 가장 가까운 중심점에 할당됩니다. 이는 K개의 초기 클러스터를 형성합니다.
  3. 업데이트 단계: 각 클러스터의 중심은 클러스터에 할당된 모든 데이터 포인트의 평균을 취하여 다시 계산됩니다.
  4. Iteration: 클러스터 할당이 더 이상 변경되지 않거나 최대 반복 횟수에 도달할 때까지 할당 및 업데이트 단계가 반복됩니다. 이 시점에서 알고리즘이 수렴되고 최종 클러스터가 형성됩니다. 보다 직관적인 이해를 위해 K-Means 알고리즘에 대한 시각적 설명을 참조하십시오.

K에 대한 올바른 값을 선택하는 것은 매우 중요하며 종종 도메인 지식이 필요하거나 엘보우 방법 또는 실루엣 점수와 같은 방법을 사용해야 합니다. 구현은 Scikit-learn과 같은 라이브러리에서 널리 사용할 수 있습니다.

실제 애플리케이션

K-평균은 단순성과 효율성으로 인해 다양한 영역에서 적용됩니다.

  • 고객 세분화: 리테일 및 마케팅에서 기업은 K-Means를 사용하여 구매 내역, 인구 통계 또는 행동을 기반으로 고객을 고유한 세그먼트로 그룹화합니다. 예를 들어, 회사는 "지출이 많은 충성 고객" 클러스터와 "예산에 민감한 가끔 쇼핑객" 클러스터를 식별할 수 있습니다. 이를 통해 클러스터링을 사용한 고객 세분화 연구에서 설명된 대로 타겟 마케팅 전략이 가능합니다.
  • Image Compression(이미지 압축): 컴퓨터 비전(CV)에서 K-Means는 차원 축소의 한 형태인 색상 양자화에 사용됩니다. 유사한 픽셀 색상을 K개의 클러스터로 그룹화하여 각 픽셀의 색상을 클러스터의 중심 색상으로 바꿉니다. 이렇게 하면 이미지의 색상 수가 줄어들어 효과적으로 압축됩니다. 이 기술은 이미지 분할의 기본 개념입니다.
  • 문서 분석: 이 알고리즘은 용어 빈도를 기반으로 문서를 클러스터링하여 주제를 식별하거나 유사한 기사를 그룹화할 수 있으므로 대규모 텍스트 데이터 세트를 구성하는 데 도움이 됩니다.

K-평균과 관련 개념 비교

K-평균(K-Means)을 다른 머신러닝 알고리즘과 구별하는 것이 중요합니다.

  • K-Nearest Neighbors (KNN): 이는 일반적인 혼동 지점입니다. K-Means는 레이블이 지정되지 않은 데이터를 그룹화하는 비지도 클러스터링 알고리즘입니다. 대조적으로 KNN은 K-최근접 이웃의 레이블을 기반으로 새 데이터 포인트의 레이블을 예측하는 지도 분류 또는 회귀 알고리즘입니다. K-Means는 그룹을 생성하는 반면 KNN은 미리 정의된 그룹으로 분류합니다.
  • Support Vector Machine (SVM): SVM은 분류를 위해 사용되는 지도 학습 모델로, 클래스를 분리하는 최적의 초평면을 찾습니다. K-Means는 비지도 학습 모델이며, 사전 정의된 레이블 없이 유사성을 기반으로 데이터를 그룹화합니다.
  • DBSCAN: K-Means와 달리 DBSCAN은 임의의 모양 클러스터를 식별할 수 있고 이상치에 강한 밀도 기반 클러스터링 알고리즘입니다. K-Means는 클러스터가 구형이라고 가정하고 이상치의 영향을 크게 받을 수 있습니다.

K-Means는 데이터 탐색을 위한 기본적인 도구이지만, 실시간 객체 감지와 같은 복잡한 작업은 더욱 발전된 모델에 의존합니다. Ultralytics YOLO와 같은 최신 감지기는 뛰어난 성능을 위해 정교한 딥러닝 기술을 사용합니다. 그러나 앵커 박스를 그룹화하는 것과 같은 클러스터링의 개념은 초기 객체 감지기 개발의 기초가 되었습니다. 이러한 작업에 대한 데이터 세트 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.