Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

DBSCAN (raggruppamento spaziale di applicazioni con rumore basato sulla densità)

Scopri DBSCAN: un robusto algoritmo di clustering per identificare pattern, gestire il rumore e analizzare set di dati complessi nel machine learning.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un popolare algoritmo di apprendimento non supervisionato utilizzato per raggruppare i punti dati che sono strettamente impacchettati, contrassegnando come outlier i punti che si trovano da soli in regioni a bassa densità. A differenza di altri metodi di clustering, DBSCAN non richiede che il numero di cluster sia specificato in anticipo. La sua capacità di trovare cluster di forma arbitraria e la sua robustezza al rumore lo rendono uno strumento potente per il data mining e la data analytics. L'algoritmo è stato introdotto per la prima volta in un articolo del 1996 di Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu, che è diventato un lavoro fondamentale nel campo.

Come funziona il DBSCAN

DBSCAN definisce i cluster in base alla densità dei punti dati in un determinato spazio. Opera su due parametri chiave:

  • Epsilon (ε o eps): Questo parametro definisce il raggio di un intorno attorno a un punto dati. Tutti i punti all'interno di questa distanza sono considerati vicini.
  • Punti minimi (MinPts): Questo è il numero minimo di punti dati (incluso il punto stesso) richiesto per formare una regione densa o un cluster.

Sulla base di questi parametri, DBSCAN classifica ogni punto dati in uno di questi tre tipi:

  1. Punti chiave: Un punto è un punto centrale se ha almeno MinPts all'interno del suo eps vicinato. Questi punti sono l'interno di un cluster.
  2. Punti di confine: Un punto è un punto di confine se si trova all'interno del eps vicino a un punto centrale, ma non ha abbastanza vicini per essere esso stesso un punto centrale. Questi punti formano il bordo di un cluster.
  3. Punti di rumore (outlier): Un punto è considerato rumore se non è né un punto centrale né un punto di confine. Questi sono gli outlier che non appartengono a nessun cluster.

L'algoritmo inizia con un punto arbitrario e ne recupera il vicinato. Se è un punto centrale, viene creato un nuovo cluster. L'algoritmo espande quindi iterativamente il cluster aggiungendo ad esso tutti i vicini direttamente raggiungibili, un processo che continua fino a quando non è più possibile aggiungere punti a nessun cluster. È possibile vedere un'implementazione visiva nella documentazione di scikit-learn.

Applicazioni AI/ML nel Mondo Reale

La capacità di DBSCAN di identificare il rumore e scoprire cluster non lineari lo rende estremamente prezioso in vari domini:

  • Analisi geospaziale: Urbanisti e geografi utilizzano DBSCAN per analizzare i dati spaziali. Ad esempio, raggruppando le coordinate GPS degli incidenti stradali, possono identificare i punti critici degli incidenti. Allo stesso modo, può essere utilizzato per trovare cluster di casi di malattie segnalati, aiutando gli epidemiologi a monitorare le epidemie. Organizzazioni come la Geospatial Information Authority of Japan utilizzano metodi simili basati sulla densità per la mappatura.
  • Rilevamento di anomalie in finanza: Nel settore finanziario, DBSCAN può essere utilizzato per rilevare transazioni fraudolente. Raggruppando i modelli di spesa tipici di un cliente, qualsiasi transazione che si discosti da questi cluster (ovvero, etichettata come rumore) può essere segnalata per ulteriori indagini. Questo approccio è un componente chiave dei moderni sistemi di rilevamento delle frodi.

DBSCAN e Ultralytics

L'ecosistema Ultralytics si concentra principalmente sui modelli di apprendimento supervisionato, come Ultralytics YOLO per attività tra cui il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze. Sebbene DBSCAN sia un metodo non supervisionato, i suoi principi sono rilevanti nel contesto più ampio della computer vision (CV).

Ad esempio, dopo aver eseguito il rilevamento di oggetti con un modello come YOLO11 su un video di una strada trafficata, DBSCAN potrebbe essere applicato alle coordinate del centro delle bounding box rilevate. Questa fase di post-elaborazione può raggruppare i singoli rilevamenti di pedoni in folle distinte, fornendo un livello superiore di comprensione della scena. La comprensione della distribuzione dei dati è fondamentale anche quando si preparano i dataset per il training. L'analisi esplorativa dei dati utilizzando DBSCAN può rivelare schemi o anomalie nel dataset, che possono essere gestiti e visualizzati utilizzando piattaforme come Ultralytics HUB.

Distinguere dai termini correlati

  • Clustering K-Means: La differenza più significativa è che K-Means richiede all'utente di specificare il numero di cluster (k) in anticipo, mentre DBSCAN determina automaticamente il numero di cluster. K-Means ha anche difficoltà con i cluster non sferici ed è sensibile agli outlier, poiché forza ogni punto in un cluster. DBSCAN eccelle nel trovare cluster di forma arbitraria e isola efficacemente gli outlier come rumore.
  • Clustering gerarchico: Questo metodo crea un albero di cluster, noto come dendrogramma. Sebbene sia utile per visualizzare strutture di cluster nidificate, può essere computazionalmente più costoso su set di dati di grandi dimensioni rispetto a DBSCAN. La scelta tra i due dipende spesso dalla dimensione del set di dati e dall'output desiderato, come indicato nelle guide per la scelta dell'algoritmo di clustering giusto.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti