Glossaire

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Découvrez DBSCAN : un algorithme de clustering robuste permettant d'identifier des modèles, de gérer le bruit et d'analyser des ensembles de données complexes dans le cadre de l'apprentissage automatique.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme populaire d'apprentissage non supervisé utilisé pour regrouper les points de données qui sont très proches les uns des autres, en marquant comme aberrants les points qui se trouvent seuls dans les régions à faible densité. Contrairement à d'autres méthodes de regroupement, DBSCAN n'exige pas que le nombre de grappes soit spécifié à l'avance. Sa capacité à trouver des grappes de forme arbitraire et sa robustesse au bruit en font un outil puissant pour l'exploration et l'analyse des données. L'algorithme a été présenté pour la première fois dans un article publié en 1996 par Martin Ester, Hans-Peter Kriegel, Jörg Sander et Xiaowei Xu, qui est devenu un ouvrage fondamental dans ce domaine.

Fonctionnement de DBSCAN

DBSCAN définit des grappes sur la base de la densité des points de données dans un espace donné. Il fonctionne sur la base de deux paramètres clés :

  • Epsilon (ε ou eps) : Ce paramètre définit le rayon d'un voisinage autour d'un point de données. Tous les points situés à l'intérieur de cette distance sont considérés comme des voisins.
  • Points minimums (MinPts) : Il s'agit du nombre minimum de points de données (y compris le point lui-même) requis pour former une région dense ou une grappe.

Sur la base de ces paramètres, DBSCAN classe chaque point de données dans l'un des trois types suivants :

  1. Points essentiels : Un point est un point central s'il a au moins MinPts au sein de son eps le voisinage. Ces points constituent l'intérieur d'une grappe.
  2. Points frontières : Un point est un point frontière s'il se trouve à l'intérieur de la zone eps Le point le plus proche d'un point central, mais qui n'a pas assez de voisins pour être lui-même un point central. Ces points forment le bord d'une grappe.
  3. Points de bruit (valeurs aberrantes) : Un point est considéré comme bruyant s'il n'est ni un point central ni un point frontière. Il s'agit des points aberrants qui n'appartiennent à aucun groupe.

L'algorithme commence par un point arbitraire et récupère son voisinage. S'il s'agit d'un point central, un nouveau groupe est créé. L'algorithme étend ensuite le groupe de manière itérative en y ajoutant tous les voisins directement accessibles, un processus qui se poursuit jusqu'à ce qu'aucun point ne puisse plus être ajouté à un groupe. Vous pouvez voir une implémentation visuelle dans la documentation de scikit-learn.

Applications IA/ML dans le monde réel

La capacité de DBSCAN à identifier le bruit et à découvrir des grappes non linéaires lui confère une grande valeur dans divers domaines :

  • Analyse géospatiale : Les urbanistes et les géographes utilisent DBSCAN pour analyser des données spatiales. Par exemple, en regroupant les coordonnées GPS des incidents de la circulation, ils peuvent identifier les points névralgiques des accidents. De même, il peut être utilisé pour trouver des grappes de cas de maladie signalés, ce qui aide les épidémiologistes à suivre les épidémies. Des organisations telles que la Geospatial Information Authority of Japan utilisent des méthodes similaires basées sur la densité pour la cartographie.
  • Détection d'anomalies dans la finance : Dans le secteur financier, DBSCAN peut être utilisé pour détecter les transactions frauduleuses. En regroupant les habitudes de dépenses typiques d'un client, toute transaction qui sort de ces groupes (c'est-à-dire qui est étiquetée comme du bruit) peut être signalée pour faire l'objet d'un examen plus approfondi. Cette approche est un élément clé des systèmes modernes de détection des fraudes.

DBSCAN et Ultralytics

L'écosystème Ultralytics se concentre principalement sur les modèles d'apprentissage supervisés, tels que Ultralytics YOLO pour des tâches telles que la détection d'objets, la classification d'images et la segmentation d'instances. Bien que DBSCAN soit une méthode non supervisée, ses principes sont pertinents dans le contexte plus large de la vision par ordinateur (VA).

Par exemple, après avoir effectué la détection d'objets avec un modèle comme YOLO11 sur une vidéo d'une rue animée, DBSCAN pourrait être appliqué aux coordonnées centrales des boîtes de délimitation détectées. Cette étape de post-traitement permet de regrouper les détections individuelles de piétons en foules distinctes, ce qui permet de mieux comprendre la scène. La compréhension de la distribution des données est également cruciale lors de la préparation des ensembles de données pour la formation. L'analyse exploratoire des données à l'aide de DBSCAN peut révéler des modèles ou des anomalies dans l'ensemble de données, qui peuvent être gérés et visualisés à l'aide de plateformes comme Ultralytics HUB.

Distinction par rapport à des termes apparentés

  • Regroupement K-Means: La différence la plus importante est que K-Means demande à l'utilisateur de spécifier le nombre de grappes (k) à l'avance, alors que DBSCAN détermine le nombre de grappes automatiquement. K-Means a également des difficultés avec les grappes non sphériques et est sensible aux valeurs aberrantes, car il force chaque point à entrer dans une grappe. DBSCAN excelle dans la recherche de grappes de forme arbitraire et isole efficacement les valeurs aberrantes comme du bruit.
  • Regroupement hiérarchique : Cette méthode crée un arbre de grappes, connu sous le nom de dendrogramme. Bien qu'elle soit utile pour visualiser les structures de grappes imbriquées, elle peut s'avérer plus coûteuse en termes de calcul sur les grands ensembles de données que DBSCAN. Le choix entre ces deux méthodes dépend souvent de la taille de l'ensemble de données et du résultat souhaité, comme indiqué dans les guides pour choisir le bon algorithme de clustering.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers