Thuật ngữ

DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu)

Khám phá DBSCAN: một thuật toán phân cụ mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong học máy.

DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu) là một thuật toán học không giám sát phổ biến được sử dụng để nhóm các điểm dữ liệu có mật độ gần nhau, đánh dấu các điểm ngoại lệ nằm riêng lẻ trong các vùng mật độ thấp. Không giống như các phương pháp phân cụm khác, DBSCAN không yêu cầu phải chỉ định trước số lượng cụm. Khả năng tìm các cụm có hình dạng tùy ý và khả năng chống nhiễu mạnh mẽ của nó khiến nó trở thành một công cụ mạnh mẽ cho khai thác dữ liệuphân tích dữ liệu . Thuật toán này được giới thiệu lần đầu tiên trong một bài báo năm 1996 của Martin Ester, Hans-Peter Kriegel, Jörg Sander và Xiaowei Xu, sau này trở thành một công trình nền tảng trong lĩnh vực này.

DBSCAN hoạt động như thế nào

DBSCAN định nghĩa các cụm dựa trên mật độ điểm dữ liệu trong một không gian nhất định. Nó hoạt động dựa trên hai tham số chính:

  • Epsilon (ε hoặc eps): Tham số này xác định bán kính của một vùng lân cận xung quanh một điểm dữ liệu. Tất cả các điểm trong khoảng cách này đều được coi là vùng lân cận.
  • Điểm tối thiểu (MinPts): Đây là số điểm dữ liệu tối thiểu (bao gồm cả điểm đó) cần thiết để hình thành một vùng hoặc cụm dày đặc.

Dựa trên các thông số này, DBSCAN phân loại mọi điểm dữ liệu thành một trong ba loại sau:

  1. Điểm cốt lõi: Một điểm là điểm cốt lõi nếu nó có ít nhất MinPts trong phạm vi của nó eps khu vực lân cận. Những điểm này là phần bên trong của một cụm.
  2. Điểm biên giới: Một điểm là điểm biên giới nếu nó nằm trong eps lân cận của một điểm lõi nhưng không có đủ số lượng lân cận để tự nó trở thành một điểm lõi. Các điểm này tạo thành cạnh của một cụm.
  3. Điểm nhiễu (Điểm ngoại lệ): Một điểm được coi là nhiễu nếu nó không phải là điểm lõi cũng không phải điểm biên. Đây là những điểm ngoại lệ không thuộc bất kỳ cụm nào.

Thuật toán bắt đầu với một điểm tùy ý và lấy ra lân cận của nó. Nếu đó là điểm lõi, một cụm mới sẽ được tạo. Sau đó, thuật toán sẽ lặp lại việc mở rộng cụm bằng cách thêm tất cả các lân cận có thể tiếp cận trực tiếp vào cụm đó, một quá trình tiếp tục cho đến khi không thể thêm điểm nào vào bất kỳ cụm nào nữa. Bạn có thể xem hình ảnh minh họa trong tài liệu scikit-learn .

Ứng dụng AI/ML trong thế giới thực

Khả năng xác định nhiễu và phát hiện các cụm phi tuyến tính của DBSCAN khiến nó trở nên cực kỳ có giá trị trong nhiều lĩnh vực khác nhau:

  • Phân tích Không gian Địa lý: Các nhà quy hoạch đô thị và nhà địa lý sử dụng DBSCAN để phân tích dữ liệu không gian. Ví dụ, bằng cách phân cụm tọa độ GPS của các vụ tai nạn giao thông, họ có thể xác định các điểm nóng tai nạn. Tương tự, nó có thể được sử dụng để tìm các cụm ca bệnh được báo cáo, giúp các nhà dịch tễ học theo dõi các đợt bùng phát. Các tổ chức như Cơ quan Thông tin Không gian Địa lý Nhật Bản (GIA) cũng sử dụng các phương pháp dựa trên mật độ tương tự để lập bản đồ.
  • Phát hiện Bất thường trong Tài chính: Trong lĩnh vực tài chính, DBSCAN có thể được sử dụng để phát hiện các giao dịch gian lận. Bằng cách phân nhóm các mô hình chi tiêu điển hình của khách hàng, bất kỳ giao dịch nào nằm ngoài các nhóm này (tức là được gắn nhãn nhiễu) đều có thể được gắn cờ để điều tra thêm. Phương pháp này là một thành phần quan trọng của các hệ thống phát hiện gian lận hiện đại.

DBSCAN và Ultralytics

Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát , chẳng hạn như Ultralytics YOLO cho các tác vụ bao gồm phát hiện đối tượng , phân loại hình ảnhphân đoạn thực thể . Mặc dù DBSCAN là một phương pháp không giám sát, nhưng các nguyên tắc của nó có liên quan đến bối cảnh rộng hơn của thị giác máy tính (CV) .

Ví dụ, sau khi thực hiện phát hiện đối tượng bằng mô hình như YOLO11 trên video về một con phố đông đúc, DBSCAN có thể được áp dụng cho tọa độ trung tâm của các khung giới hạn đã phát hiện. Bước hậu xử lý này có thể nhóm các phát hiện người đi bộ riêng lẻ thành các đám đông riêng biệt, mang lại mức độ hiểu biết cao hơn về bối cảnh. Việc hiểu rõ phân phối dữ liệu cũng rất quan trọng khi chuẩn bị tập dữ liệu để huấn luyện. Phân tích dữ liệu thăm dò bằng DBSCAN có thể phát hiện các mẫu hoặc điểm bất thường trong tập dữ liệu, có thể được quản lý và trực quan hóa bằng các nền tảng như Ultralytics HUB .

Phân biệt từ các thuật ngữ liên quan

  • Phân cụm K-Means : Sự khác biệt quan trọng nhất là K-Means yêu cầu người dùng chỉ định số lượng cụm (k) trước đó, trong khi DBSCAN tự động xác định số lượng cụm. K-Means cũng gặp khó khăn với các cụm không hình cầu và nhạy cảm với các điểm ngoại lệ, vì nó ép mọi điểm vào một cụm. DBSCAN vượt trội trong việc tìm các cụm có hình dạng tùy ý và cô lập hiệu quả các điểm ngoại lệ dưới dạng nhiễu.
  • Phân cụm phân cấp: Phương pháp này tạo ra một cây các cụm, được gọi là sơ đồ phân nhánh. Mặc dù hữu ích cho việc trực quan hóa các cấu trúc cụm lồng nhau, phương pháp này có thể tốn kém hơn về mặt tính toán trên các tập dữ liệu lớn so với DBSCAN. Việc lựa chọn giữa hai phương pháp này thường phụ thuộc vào kích thước tập dữ liệu và kết quả đầu ra mong muốn, như được nêu trong hướng dẫn chọn thuật toán phân cụm phù hợp .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard