Glossario

DBSCAN (raggruppamento spaziale di applicazioni con rumore basato sulla densità)

Scoprite DBSCAN: un robusto algoritmo di clustering per l'identificazione di modelli, la gestione del rumore e l'analisi di insiemi di dati complessi nell'apprendimento automatico.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un popolare algoritmo di apprendimento non supervisionato utilizzato per raggruppare i punti di dati che sono strettamente compressi, contrassegnando come outlier i punti che si trovano da soli in regioni a bassa densità. A differenza di altri metodi di clustering, DBSCAN non richiede che il numero di cluster sia specificato in anticipo. La sua capacità di trovare cluster di forma arbitraria e la sua robustezza al rumore lo rendono uno strumento potente per il data mining e l'analisi dei dati. L'algoritmo è stato introdotto per la prima volta in un articolo del 1996 di Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu, che è diventato un lavoro fondamentale nel settore.

Come funziona DBSCAN

DBSCAN definisce i cluster in base alla densità dei punti dati in un determinato spazio. Opera su due parametri chiave:

  • Epsilon (ε o eps): Questo parametro definisce il raggio di un vicinato intorno a un punto dati. Tutti i punti entro questa distanza sono considerati vicini.
  • Punti minimi (MinPts): È il numero minimo di punti dati (compreso il punto stesso) necessario per formare una regione o un cluster denso.

In base a questi parametri, DBSCAN classifica ogni punto dati in uno dei tre tipi:

  1. Punti fondamentali: Un punto è un punto centrale se ha almeno MinPts all'interno del suo eps quartiere. Questi punti rappresentano l'interno di un cluster.
  2. Punti di confine: Un punto è un punto di frontiera se si trova all'interno dell'area eps di un punto centrale, ma non ha un numero sufficiente di vicini per essere esso stesso un punto centrale. Questi punti formano il bordo di un cluster.
  3. Punti di rumore (outlier): Un punto è considerato rumore se non è né un punto centrale né un punto di confine. Si tratta di outlier che non appartengono a nessun cluster.

L'algoritmo parte da un punto arbitrario e ne recupera il vicinato. Se si tratta di un punto centrale, viene creato un nuovo cluster. L'algoritmo espande quindi iterativamente il cluster aggiungendovi tutti i vicini direttamente raggiungibili, un processo che continua finché non è possibile aggiungere altri punti a nessun cluster. È possibile vedere un'implementazione visiva nella documentazione di scikit-learn.

Applicazioni AI/ML nel mondo reale

La capacità di DBSCAN di identificare il rumore e di scoprire cluster non lineari lo rende estremamente valido in diversi ambiti:

  • Analisi geospaziale: Gli urbanisti e i geografi utilizzano DBSCAN per analizzare i dati spaziali. Per esempio, raggruppando le coordinate GPS degli incidenti stradali, possono identificare i punti caldi degli incidenti. Allo stesso modo, può essere utilizzato per trovare cluster di casi di malattia segnalati, aiutando gli epidemiologi a tracciare i focolai. Organizzazioni come la Geospatial Information Authority del Giappone utilizzano metodi simili basati sulla densità per la mappatura.
  • Rilevamento di anomalie nel settore finanziario: Nel settore finanziario, DBSCAN può essere utilizzato per rilevare transazioni fraudolente. Raggruppando gli schemi di spesa tipici di un cliente, qualsiasi transazione che non rientra in questi cluster (cioè che viene etichettata come rumore) può essere segnalata per ulteriori indagini. Questo approccio è una componente chiave dei moderni sistemi di rilevamento delle frodi.

DBSCAN e Ultralytics

L'ecosistema Ultralytics si concentra principalmente su modelli di apprendimento supervisionati, come Ultralytics YOLO, per compiti quali il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze. Sebbene DBSCAN sia un metodo non supervisionato, i suoi principi sono rilevanti nel contesto più ampio della computer vision (CV).

Ad esempio, dopo aver eseguito il rilevamento degli oggetti con un modello come YOLO11 su un video di una strada trafficata, si potrebbe applicare DBSCAN alle coordinate centrali dei rettangoli di selezione rilevati. Questa fase di post-elaborazione può raggruppare i singoli rilevamenti di pedoni in gruppi distinti, fornendo un livello superiore di comprensione della scena. Anche la comprensione della distribuzione dei dati è fondamentale quando si preparano i set di dati per l'addestramento. L'analisi esplorativa dei dati utilizzando DBSCAN può rivelare modelli o anomalie nel set di dati, che possono essere gestiti e visualizzati utilizzando piattaforme come Ultralytics HUB.

Distinguere dai termini correlati

  • Raggruppamento K-Means: La differenza più significativa è che K-Means richiede all'utente di specificare il numero di cluster (k), mentre DBSCAN determina automaticamente il numero di cluster. K-Means ha difficoltà anche con i cluster non sferici ed è sensibile agli outlier, poiché costringe ogni punto a rientrare in un cluster. DBSCAN eccelle nel trovare cluster di forma arbitraria e isola efficacemente gli outlier come rumore.
  • Clustering gerarchico: Questo metodo crea un albero di cluster, noto come dendrogramma. Sebbene sia utile per visualizzare le strutture dei cluster annidati, può essere più costoso dal punto di vista computazionale su dataset di grandi dimensioni rispetto a DBSCAN. La scelta tra i due metodi dipende spesso dalle dimensioni del set di dati e dall'output desiderato, come illustrato nelle guide alla scelta dell'algoritmo di clustering giusto.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti