Khám phá DBSCAN: một thuật toán phân cụm mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong machine learning.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán học không giám sát phổ biến, được sử dụng để nhóm các điểm dữ liệu được đóng gói chặt chẽ với nhau, đánh dấu các điểm nằm riêng lẻ trong các vùng mật độ thấp là ngoại lệ. Không giống như các phương pháp phân cụm khác, DBSCAN không yêu cầu chỉ định trước số lượng cụm. Khả năng tìm các cụm có hình dạng tùy ý và khả năng chống nhiễu của nó làm cho nó trở thành một công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu. Thuật toán này lần đầu tiên được giới thiệu trong một bài báo năm 1996 của Martin Ester, Hans-Peter Kriegel, Jörg Sander và Xiaowei Xu, bài báo này đã trở thành một công trình nền tảng trong lĩnh vực này.
DBSCAN xác định các cụm dựa trên mật độ của các điểm dữ liệu trong một không gian nhất định. Nó hoạt động dựa trên hai tham số chính:
eps): Tham số này xác định bán kính của một vùng lân cận xung quanh một điểm dữ liệu. Tất cả các điểm trong khoảng cách này được coi là lân cận.Dựa trên các tham số này, DBSCAN phân loại mọi điểm dữ liệu thành một trong ba loại:
MinPts bên trong nó eps lân cận. Những điểm này là phần bên trong của một cụm.eps lân cận của một điểm lõi nhưng không có đủ láng giềng để tự nó là một điểm lõi. Những điểm này tạo thành rìa của một cụm.Thuật toán bắt đầu với một điểm tùy ý và truy xuất vùng lân cận của nó. Nếu đó là một điểm lõi, một cụm mới sẽ được tạo. Sau đó, thuật toán lặp đi lặp lại mở rộng cụm bằng cách thêm tất cả các hàng xóm có thể truy cập trực tiếp vào nó, một quá trình tiếp tục cho đến khi không còn điểm nào có thể được thêm vào bất kỳ cụm nào. Bạn có thể xem triển khai trực quan trong tài liệu scikit-learn.
Khả năng xác định nhiễu và khám phá các cụm phi tuyến tính của DBSCAN làm cho nó có giá trị cao trong nhiều lĩnh vực khác nhau:
Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát, chẳng hạn như Ultralytics YOLO cho các tác vụ bao gồm phát hiện đối tượng, phân loại hình ảnh và phân đoạn thể hiện. Mặc dù DBSCAN là một phương pháp không giám sát, nhưng các nguyên tắc của nó có liên quan trong bối cảnh rộng lớn hơn của thị giác máy tính (CV).
Ví dụ: sau khi thực hiện object detection với một mô hình như YOLO11 trên một video về một con phố đông đúc, DBSCAN có thể được áp dụng cho tọa độ trung tâm của các bounding box được phát hiện. Bước hậu xử lý này có thể nhóm các phát hiện người đi bộ riêng lẻ thành các đám đông riêng biệt, cung cấp mức độ hiểu biết về cảnh cao hơn. Hiểu phân phối dữ liệu cũng rất quan trọng khi chuẩn bị datasets để training. Phân tích dữ liệu thăm dò bằng DBSCAN có thể tiết lộ các mẫu hoặc dị thường trong dataset, có thể được quản lý và trực quan hóa bằng các nền tảng như Ultralytics HUB.
k) trước, trong khi DBSCAN tự động xác định số lượng cụm. K-Means cũng gặp khó khăn với các cụm không hình cầu và nhạy cảm với các giá trị ngoại lệ, vì nó buộc mọi điểm vào một cụm. DBSCAN vượt trội trong việc tìm kiếm các cụm có hình dạng tùy ý và cô lập hiệu quả các giá trị ngoại lệ dưới dạng nhiễu.