Découvrez DBSCAN : un algorithme de clustering robuste pour identifier les modèles, gérer le bruit et analyser des ensembles de données complexes dans l'apprentissage automatique.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme d'apprentissage non supervisé populaire, utilisé pour regrouper les points de données qui sont étroitement liés, en marquant comme valeurs aberrantes les points isolés dans les régions de faible densité. Contrairement à d'autres méthodes de clustering, DBSCAN ne nécessite pas que le nombre de clusters soit spécifié à l'avance. Sa capacité à trouver des clusters de formes arbitraires et sa robustesse au bruit en font un outil puissant pour l'exploration de données et l'analyse de données. L'algorithme a été introduit pour la première fois dans un article de 1996 par Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu, qui est devenu un ouvrage fondamental dans le domaine.
DBSCAN définit les clusters en fonction de la densité des points de données dans un espace donné. Il fonctionne sur deux paramètres clés :
eps): Ce paramètre définit le rayon d'un voisinage autour d'un point de données. Tous les points situés à cette distance sont considérés comme des voisins.Sur la base de ces paramètres, DBSCAN catégorise chaque point de données en l'un des trois types suivants :
MinPts dans son eps voisinage. Ces points sont l'intérieur d'un cluster.eps voisinage d'un point central, mais n'a pas assez de voisins pour être lui-même un point central. Ces points forment le bord d'un cluster.L'algorithme commence par un point arbitraire et récupère son voisinage. S'il s'agit d'un point central, un nouveau cluster est créé. L'algorithme étend ensuite itérativement le cluster en ajoutant tous les voisins directement accessibles, un processus qui se poursuit jusqu'à ce qu'aucun autre point ne puisse être ajouté à un cluster. Vous pouvez voir une implémentation visuelle dans la documentation scikit-learn.
La capacité de DBSCAN à identifier le bruit et à découvrir des clusters non linéaires le rend très précieux dans divers domaines :
L'écosystème Ultralytics se concentre principalement sur les modèles d'apprentissage supervisé, tels que Ultralytics YOLO pour des tâches incluant la détection d'objets, la classification d'images et la segmentation d'instances. Bien que DBSCAN soit une méthode non supervisée, ses principes sont pertinents dans le contexte plus large de la vision par ordinateur (CV).
Par exemple, après avoir effectué une détection d'objets avec un modèle comme YOLO11 sur une vidéo d'une rue animée, DBSCAN pourrait être appliqué aux coordonnées centrales des boîtes englobantes détectées. Cette étape de post-traitement peut regrouper les détections de piétons individuels en foules distinctes, offrant ainsi une meilleure compréhension de la scène. La compréhension de la distribution des données est également cruciale lors de la préparation des jeux de données pour l'entraînement. L'analyse exploratoire des données à l'aide de DBSCAN peut révéler des schémas ou des anomalies dans le jeu de données, qui peuvent être gérés et visualisés à l'aide de plateformes comme Ultralytics HUB.
k) au préalable, tandis que DBSCAN détermine automatiquement le nombre de clusters. K-Means est également confronté à des difficultés avec les clusters non sphériques et est sensible aux valeurs aberrantes, car il force chaque point dans un cluster. DBSCAN excelle dans la recherche de clusters de formes arbitraires et isole efficacement les valeurs aberrantes en tant que bruit.