Découvrez DBSCAN : un algorithme de clustering robuste permettant d'identifier des modèles, de gérer le bruit et d'analyser des ensembles de données complexes dans le cadre de l'apprentissage automatique.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme de regroupement largement utilisé dans l'apprentissage automatique (ML) et l'exploration de données. Il appartient à la catégorie des méthodes d'apprentissage non supervisées, ce qui signifie qu'il découvre des modèles dans les données sans étiquettes prédéfinies. DBSCAN excelle dans le regroupement de points de données étroitement liés dans l'espace des caractéristiques, en identifiant efficacement des grappes de formes arbitraires. L'un de ses principaux atouts est sa capacité à marquer les points isolés dans les régions à faible densité comme des valeurs aberrantes ou du bruit, ce qui le rend robuste pour les ensembles de données du monde réel. Contrairement aux algorithmes qui nécessitent de spécifier le nombre de grappes au préalable, DBSCAN détermine les grappes en fonction de la densité des données, ce qui offre une certaine souplesse pour diverses tâches d'exploration des données dans le cadre de l'intelligence artificielle (IA).
DBSCAN identifie les grappes sur la base du concept d'accessibilité de la densité. Il considère les grappes comme des zones à forte densité séparées par des zones à faible densité. Le comportement de l'algorithme est principalement contrôlé par deux paramètres :
Sur la base de ces paramètres, les points de données sont classés en trois catégories :
minPts
voisins au sein de son eps
rayon. Ces points sont généralement situés à l'intérieur d'une grappe.eps
rayon d'un point central) mais n'a pas de minPts
voisin lui-même. Les points frontières se situent à la périphérie des grappes.L'algorithme commence par sélectionner un point de données arbitraire, non visité. Il vérifie s'il s'agit d'un point central en examinant son eps
-Si c'est un point central, un nouveau groupe est formé. S'il s'agit d'un point central, un nouveau groupe est formé et l'algorithme ajoute récursivement à ce groupe tous les points accessibles en termes de densité (points centraux et points frontières dans le voisinage). Si le point sélectionné est un point de bruit, il est temporairement marqué comme tel et l'algorithme passe au point non visité suivant. Ce processus se poursuit jusqu'à ce que tous les points aient été visités et affectés à un groupe ou marqués comme étant du bruit. Pour plus de détails sur la méthodologie originale, consultez le document de recherche : "Un algorithme basé sur la densité pour découvrir des grappes dans de grandes bases de données spatiales avec du bruit".
DBSCAN offre plusieurs avantages :
Cependant, elle présente également des limites :
eps
et minPts
. Trouver les paramètres optimaux peut s'avérer difficile. Des outils tels que implémentations de l'offre scikit-learn qui peuvent être accordées.eps
-minPts
Cette combinaison peut ne pas fonctionner correctement pour tous les clusters.DBSCAN est souvent comparé à d'autres algorithmes de clustering, notamment le clustering K-means. Les principales différences sont les suivantes :
k
) au préalable, alors que DBSCAN le détermine automatiquement.La capacité de DBSCAN à trouver des groupes denses et à isoler les valeurs aberrantes lui permet de s'adapter à diverses applications :
L'écosystème Ultralytics se concentre principalement sur les modèles d'apprentissage supervisé, tels que Ultralytics YOLO pour des tâches telles que la détection d'objets, la classification d'images et la segmentation d'images. Bien que DBSCAN, en tant que méthode non supervisée, ne soit pas directement intégrée dans les boucles d'apprentissage de base de modèles tels que YOLOv8 ou YOLO11, ses principes sont pertinents dans le contexte plus large de la vision par ordinateur (VA) et de l'analyse de données. La compréhension de la densité et de la distribution des données est cruciale lors de la préparation et de l'analyse des ensembles de données pour l'entraînement ou lors du post-traitement des résultats du modèle, par exemple en regroupant les objets détectés sur la base de leur proximité spatiale après l'inférence. Des plateformes comme Ultralytics HUB fournissent des outils pour la gestion et la visualisation des ensembles de données, qui peuvent compléter les techniques d'analyse exploratoire des données où des algorithmes de regroupement comme DBSCAN peuvent être appliqués.