Khám phá DBSCAN: một thuật toán phân cụ mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong học máy.
DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu) là một thuật toán học không giám sát phổ biến được sử dụng để nhóm các điểm dữ liệu có mật độ gần nhau, đánh dấu các điểm ngoại lệ nằm riêng lẻ trong các vùng mật độ thấp. Không giống như các phương pháp phân cụm khác, DBSCAN không yêu cầu phải chỉ định trước số lượng cụm. Khả năng tìm các cụm có hình dạng tùy ý và khả năng chống nhiễu mạnh mẽ của nó khiến nó trở thành một công cụ mạnh mẽ cho khai thác dữ liệu và phân tích dữ liệu . Thuật toán này được giới thiệu lần đầu tiên trong một bài báo năm 1996 của Martin Ester, Hans-Peter Kriegel, Jörg Sander và Xiaowei Xu, sau này trở thành một công trình nền tảng trong lĩnh vực này.
DBSCAN định nghĩa các cụm dựa trên mật độ điểm dữ liệu trong một không gian nhất định. Nó hoạt động dựa trên hai tham số chính:
eps
): Tham số này xác định bán kính của một vùng lân cận xung quanh một điểm dữ liệu. Tất cả các điểm trong khoảng cách này đều được coi là vùng lân cận.Dựa trên các thông số này, DBSCAN phân loại mọi điểm dữ liệu thành một trong ba loại sau:
MinPts
trong phạm vi của nó eps
khu vực lân cận. Những điểm này là phần bên trong của một cụm.eps
lân cận của một điểm lõi nhưng không có đủ số lượng lân cận để tự nó trở thành một điểm lõi. Các điểm này tạo thành cạnh của một cụm.Thuật toán bắt đầu với một điểm tùy ý và lấy ra lân cận của nó. Nếu đó là điểm lõi, một cụm mới sẽ được tạo. Sau đó, thuật toán sẽ lặp lại việc mở rộng cụm bằng cách thêm tất cả các lân cận có thể tiếp cận trực tiếp vào cụm đó, một quá trình tiếp tục cho đến khi không thể thêm điểm nào vào bất kỳ cụm nào nữa. Bạn có thể xem hình ảnh minh họa trong tài liệu scikit-learn .
Khả năng xác định nhiễu và phát hiện các cụm phi tuyến tính của DBSCAN khiến nó trở nên cực kỳ có giá trị trong nhiều lĩnh vực khác nhau:
Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát , chẳng hạn như Ultralytics YOLO cho các tác vụ bao gồm phát hiện đối tượng , phân loại hình ảnh và phân đoạn thực thể . Mặc dù DBSCAN là một phương pháp không giám sát, nhưng các nguyên tắc của nó có liên quan đến bối cảnh rộng hơn của thị giác máy tính (CV) .
Ví dụ, sau khi thực hiện phát hiện đối tượng bằng mô hình như YOLO11 trên video về một con phố đông đúc, DBSCAN có thể được áp dụng cho tọa độ trung tâm của các khung giới hạn đã phát hiện. Bước hậu xử lý này có thể nhóm các phát hiện người đi bộ riêng lẻ thành các đám đông riêng biệt, mang lại mức độ hiểu biết cao hơn về bối cảnh. Việc hiểu rõ phân phối dữ liệu cũng rất quan trọng khi chuẩn bị tập dữ liệu để huấn luyện. Phân tích dữ liệu thăm dò bằng DBSCAN có thể phát hiện các mẫu hoặc điểm bất thường trong tập dữ liệu, có thể được quản lý và trực quan hóa bằng các nền tảng như Ultralytics HUB .
k
) trước đó, trong khi DBSCAN tự động xác định số lượng cụm. K-Means cũng gặp khó khăn với các cụm không hình cầu và nhạy cảm với các điểm ngoại lệ, vì nó ép mọi điểm vào một cụm. DBSCAN vượt trội trong việc tìm các cụm có hình dạng tùy ý và cô lập hiệu quả các điểm ngoại lệ dưới dạng nhiễu.