Scoprite DBSCAN: un robusto algoritmo di clustering per l'identificazione di modelli, la gestione del rumore e l'analisi di insiemi di dati complessi nell'apprendimento automatico.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un popolare algoritmo di apprendimento non supervisionato utilizzato per raggruppare i punti di dati che sono strettamente compressi, contrassegnando come outlier i punti che si trovano da soli in regioni a bassa densità. A differenza di altri metodi di clustering, DBSCAN non richiede che il numero di cluster sia specificato in anticipo. La sua capacità di trovare cluster di forma arbitraria e la sua robustezza al rumore lo rendono uno strumento potente per il data mining e l'analisi dei dati. L'algoritmo è stato introdotto per la prima volta in un articolo del 1996 di Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu, che è diventato un lavoro fondamentale nel settore.
DBSCAN definisce i cluster in base alla densità dei punti dati in un determinato spazio. Opera su due parametri chiave:
eps
): Questo parametro definisce il raggio di un vicinato intorno a un punto dati. Tutti i punti entro questa distanza sono considerati vicini.In base a questi parametri, DBSCAN classifica ogni punto dati in uno dei tre tipi:
MinPts
all'interno del suo eps
quartiere. Questi punti rappresentano l'interno di un cluster.eps
di un punto centrale, ma non ha un numero sufficiente di vicini per essere esso stesso un punto centrale. Questi punti formano il bordo di un cluster.L'algoritmo parte da un punto arbitrario e ne recupera il vicinato. Se si tratta di un punto centrale, viene creato un nuovo cluster. L'algoritmo espande quindi iterativamente il cluster aggiungendovi tutti i vicini direttamente raggiungibili, un processo che continua finché non è possibile aggiungere altri punti a nessun cluster. È possibile vedere un'implementazione visiva nella documentazione di scikit-learn.
La capacità di DBSCAN di identificare il rumore e di scoprire cluster non lineari lo rende estremamente valido in diversi ambiti:
L'ecosistema Ultralytics si concentra principalmente su modelli di apprendimento supervisionati, come Ultralytics YOLO, per compiti quali il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze. Sebbene DBSCAN sia un metodo non supervisionato, i suoi principi sono rilevanti nel contesto più ampio della computer vision (CV).
Ad esempio, dopo aver eseguito il rilevamento degli oggetti con un modello come YOLO11 su un video di una strada trafficata, si potrebbe applicare DBSCAN alle coordinate centrali dei rettangoli di selezione rilevati. Questa fase di post-elaborazione può raggruppare i singoli rilevamenti di pedoni in gruppi distinti, fornendo un livello superiore di comprensione della scena. Anche la comprensione della distribuzione dei dati è fondamentale quando si preparano i set di dati per l'addestramento. L'analisi esplorativa dei dati utilizzando DBSCAN può rivelare modelli o anomalie nel set di dati, che possono essere gestiti e visualizzati utilizzando piattaforme come Ultralytics HUB.
k
), mentre DBSCAN determina automaticamente il numero di cluster. K-Means ha difficoltà anche con i cluster non sferici ed è sensibile agli outlier, poiché costringe ogni punto a rientrare in un cluster. DBSCAN eccelle nel trovare cluster di forma arbitraria e isola efficacemente gli outlier come rumore.