Découvrez DBSCAN : un algorithme de clustering robuste permettant d'identifier des modèles, de gérer le bruit et d'analyser des ensembles de données complexes dans le cadre de l'apprentissage automatique.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme populaire d'apprentissage non supervisé utilisé pour regrouper les points de données qui sont très proches les uns des autres, en marquant comme aberrants les points qui se trouvent seuls dans les régions à faible densité. Contrairement à d'autres méthodes de regroupement, DBSCAN n'exige pas que le nombre de grappes soit spécifié à l'avance. Sa capacité à trouver des grappes de forme arbitraire et sa robustesse au bruit en font un outil puissant pour l'exploration et l'analyse des données. L'algorithme a été présenté pour la première fois dans un article publié en 1996 par Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu, qui est devenu un ouvrage fondamental dans ce domaine.
DBSCAN définit des grappes sur la base de la densité des points de données dans un espace donné. Il fonctionne sur la base de deux paramètres clés :
eps
) : Ce paramètre définit le rayon d'un voisinage autour d'un point de données. Tous les points situés à l'intérieur de cette distance sont considérés comme des voisins.Sur la base de ces paramètres, DBSCAN classe chaque point de données dans l'un des trois types suivants :
MinPts
au sein de son eps
le voisinage. Ces points constituent l'intérieur d'une grappe.eps
Le point le plus proche d'un point central, mais qui n'a pas assez de voisins pour être lui-même un point central. Ces points forment le bord d'une grappe.L'algorithme commence par un point arbitraire et récupère son voisinage. S'il s'agit d'un point central, un nouveau groupe est créé. L'algorithme étend ensuite le groupe de manière itérative en y ajoutant tous les voisins directement accessibles, un processus qui se poursuit jusqu'à ce qu'aucun point ne puisse plus être ajouté à un groupe. Vous pouvez voir une implémentation visuelle dans la documentation de scikit-learn.
La capacité de DBSCAN à identifier le bruit et à découvrir des grappes non linéaires lui confère une grande valeur dans divers domaines :
L'écosystème Ultralytics se concentre principalement sur les modèles d'apprentissage supervisés, tels que Ultralytics YOLO pour des tâches telles que la détection d'objets, la classification d'images et la segmentation d'instances. Bien que DBSCAN soit une méthode non supervisée, ses principes sont pertinents dans le contexte plus large de la vision par ordinateur (VA).
Par exemple, après avoir effectué la détection d'objets avec un modèle comme YOLO11 sur une vidéo d'une rue animée, DBSCAN pourrait être appliqué aux coordonnées centrales des boîtes de délimitation détectées. Cette étape de post-traitement permet de regrouper les détections individuelles de piétons en foules distinctes, ce qui permet de mieux comprendre la scène. La compréhension de la distribution des données est également cruciale lors de la préparation des ensembles de données pour la formation. L'analyse exploratoire des données à l'aide de DBSCAN peut révéler des modèles ou des anomalies dans l'ensemble de données, qui peuvent être gérés et visualisés à l'aide de plateformes comme Ultralytics HUB.
k
) à l'avance, alors que DBSCAN détermine le nombre de grappes automatiquement. K-Means a également des difficultés avec les grappes non sphériques et est sensible aux valeurs aberrantes, car il force chaque point à entrer dans une grappe. DBSCAN excelle dans la recherche de grappes de forme arbitraire et isole efficacement les valeurs aberrantes comme du bruit.