Phân cụm K-Means
Tìm hiểu về K-Means Clustering, một thuật toán học không giám sát quan trọng để nhóm dữ liệu thành các cụm. Khám phá quy trình, ứng dụng và so sánh của nó!
Phân cụm K-Means là một thuật toán học không giám sát nền tảng được sử dụng trong khai thác dữ liệu và học máy (ML) . Mục tiêu chính của nó là phân vùng một tập dữ liệu thành một số lượng được chỉ định trước các nhóm con riêng biệt, không chồng chéo, hay "cụm". Chữ "K" trong tên của thuật toán này ám chỉ số lượng cụm này. Thuật toán hoạt động bằng cách nhóm các điểm dữ liệu lại với nhau dựa trên độ tương đồng của chúng, trong đó độ tương đồng thường được đo bằng khoảng cách Euclid giữa các điểm. Mỗi cụm được biểu diễn bởi tâm của nó, được gọi là tâm điểm, là giá trị trung bình của tất cả các điểm dữ liệu trong cụm đó. Đây là một phương pháp mạnh mẽ nhưng đơn giản để khám phá các mẫu và cấu trúc cơ bản trong dữ liệu chưa được gắn nhãn.
Cách thức hoạt động của K-Means
Thuật toán K-Means hoạt động lặp đi lặp lại để tìm ra cách phân cụm tốt nhất cho tất cả các điểm dữ liệu. Quá trình này có thể được chia thành một vài bước đơn giản:
- Khởi tạo : Đầu tiên, số lượng cụm, K, được chọn. Sau đó, K trọng tâm ban đầu được đặt ngẫu nhiên trong không gian đặc trưng của tập dữ liệu.
- Bước gán : Mỗi điểm dữ liệu từ dữ liệu huấn luyện được gán vào tâm gần nhất. Điều này tạo thành K cụm ban đầu.
- Bước cập nhật : Trọng tâm của mỗi cụm được tính toán lại bằng cách lấy giá trị trung bình của tất cả các điểm dữ liệu được gán cho cụm đó.
- Lặp lại : Các bước gán và cập nhật được lặp lại cho đến khi các phép gán cụm không còn thay đổi hoặc đạt đến số lần lặp tối đa. Tại thời điểm này, thuật toán đã hội tụ và các cụm cuối cùng được hình thành. Bạn có thể xem giải thích trực quan về thuật toán K-Means để hiểu rõ hơn.
Việc chọn đúng giá trị K là rất quan trọng và thường đòi hỏi kiến thức chuyên môn hoặc sử dụng các phương pháp như phương pháp Elbow hoặc điểm Silhouette . Các triển khai có sẵn rộng rãi trong các thư viện như Scikit-learn .
Ứng dụng trong thế giới thực
K-Means được áp dụng trong nhiều lĩnh vực khác nhau do tính đơn giản và hiệu quả của nó:
- Phân khúc khách hàng : Trong bán lẻ và tiếp thị, các doanh nghiệp sử dụng K-Means để phân nhóm khách hàng thành các phân khúc riêng biệt dựa trên lịch sử mua hàng, đặc điểm nhân khẩu học hoặc hành vi. Ví dụ: một công ty có thể xác định nhóm "khách hàng trung thành chi tiêu cao" và nhóm "khách hàng mua sắm không thường xuyên nhưng có ngân sách hạn hẹp". Điều này cho phép triển khai các chiến lược tiếp thị nhắm mục tiêu, như được mô tả trong các nghiên cứu về phân khúc khách hàng sử dụng phân cụm .
- Nén ảnh : Trong thị giác máy tính (CV) , K-Means được sử dụng để lượng tử hóa màu, một hình thức giảm chiều . Nó nhóm các màu pixel tương tự thành K cụm, thay thế màu của mỗi pixel bằng màu trọng tâm của cụm đó. Điều này làm giảm số lượng màu trong một hình ảnh, nén ảnh một cách hiệu quả. Kỹ thuật này là một khái niệm nền tảng trong phân đoạn ảnh .
- Phân tích tài liệu : Thuật toán có thể nhóm các tài liệu dựa trên tần suất thuật ngữ của chúng để xác định chủ đề hoặc nhóm các bài viết tương tự, hỗ trợ việc sắp xếp các tập dữ liệu văn bản lớn.
K-Means so với các khái niệm liên quan
Điều quan trọng là phải phân biệt K-Means với các thuật toán học máy khác:
- K-Nearest Neighbors (KNN) : Đây là một điểm dễ gây nhầm lẫn. K-Means là một thuật toán phân cụm không giám sát , nhóm dữ liệu chưa được gắn nhãn. Ngược lại, KNN là một thuật toán phân loại hoặc hồi quy có giám sát, dự đoán nhãn của một điểm dữ liệu mới dựa trên nhãn của K-Nearest Neighbors của nó. K-Means tạo ra các nhóm, trong khi KNN phân loại thành các nhóm được xác định trước .
- Máy vectơ hỗ trợ (SVM) : SVM là một mô hình học có giám sát được sử dụng để phân loại, tìm ra siêu phẳng tối ưu để tách các lớp. K-Means là phương pháp không giám sát và nhóm dữ liệu dựa trên sự tương đồng mà không có nhãn được xác định trước.
- DBSCAN : Không giống như K-Means, DBSCAN là một thuật toán phân cụm dựa trên mật độ, có thể xác định các cụm có hình dạng tùy ý và mạnh mẽ trước các điểm ngoại lệ. K-Means giả định các cụm có dạng hình cầu và có thể bị ảnh hưởng mạnh bởi các điểm ngoại lệ.
Mặc dù K-Means là một công cụ cơ bản để khám phá dữ liệu, các tác vụ phức tạp như phát hiện đối tượng theo thời gian thực lại phụ thuộc vào các mô hình tiên tiến hơn. Các bộ phát hiện hiện đại như Ultralytics YOLO sử dụng các kỹ thuật học sâu tinh vi để đạt hiệu suất vượt trội. Tuy nhiên, các khái niệm từ phân cụm, chẳng hạn như nhóm các hộp neo, là nền tảng trong quá trình phát triển các bộ phát hiện đối tượng trước đó. Việc quản lý tập dữ liệu cho các tác vụ như vậy có thể được tinh giản bằng các nền tảng như Ultralytics HUB .