Scopri DBSCAN: un robusto algoritmo di clustering per identificare pattern, gestire il rumore e analizzare set di dati complessi nel machine learning.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un popolare algoritmo di apprendimento non supervisionato utilizzato per raggruppare i punti dati che sono strettamente impacchettati, contrassegnando come outlier i punti che si trovano da soli in regioni a bassa densità. A differenza di altri metodi di clustering, DBSCAN non richiede che il numero di cluster sia specificato in anticipo. La sua capacità di trovare cluster di forma arbitraria e la sua robustezza al rumore lo rendono uno strumento potente per il data mining e la data analytics. L'algoritmo è stato introdotto per la prima volta in un articolo del 1996 di Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu, che è diventato un lavoro fondamentale nel campo.
DBSCAN definisce i cluster in base alla densità dei punti dati in un determinato spazio. Opera su due parametri chiave:
eps): Questo parametro definisce il raggio di un intorno attorno a un punto dati. Tutti i punti all'interno di questa distanza sono considerati vicini.Sulla base di questi parametri, DBSCAN classifica ogni punto dati in uno di questi tre tipi:
MinPts all'interno del suo eps vicinato. Questi punti sono l'interno di un cluster.eps vicino a un punto centrale, ma non ha abbastanza vicini per essere esso stesso un punto centrale. Questi punti formano il bordo di un cluster.L'algoritmo inizia con un punto arbitrario e ne recupera il vicinato. Se è un punto centrale, viene creato un nuovo cluster. L'algoritmo espande quindi iterativamente il cluster aggiungendo ad esso tutti i vicini direttamente raggiungibili, un processo che continua fino a quando non è più possibile aggiungere punti a nessun cluster. È possibile vedere un'implementazione visiva nella documentazione di scikit-learn.
La capacità di DBSCAN di identificare il rumore e scoprire cluster non lineari lo rende estremamente prezioso in vari domini:
L'ecosistema Ultralytics si concentra principalmente sui modelli di apprendimento supervisionato, come Ultralytics YOLO per attività tra cui il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze. Sebbene DBSCAN sia un metodo non supervisionato, i suoi principi sono rilevanti nel contesto più ampio della computer vision (CV).
Ad esempio, dopo aver eseguito il rilevamento di oggetti con un modello come YOLO11 su un video di una strada trafficata, DBSCAN potrebbe essere applicato alle coordinate del centro delle bounding box rilevate. Questa fase di post-elaborazione può raggruppare i singoli rilevamenti di pedoni in folle distinte, fornendo un livello superiore di comprensione della scena. La comprensione della distribuzione dei dati è fondamentale anche quando si preparano i dataset per il training. L'analisi esplorativa dei dati utilizzando DBSCAN può rivelare schemi o anomalie nel dataset, che possono essere gestiti e visualizzati utilizzando piattaforme come Ultralytics HUB.
k) in anticipo, mentre DBSCAN determina automaticamente il numero di cluster. K-Means ha anche difficoltà con i cluster non sferici ed è sensibile agli outlier, poiché forza ogni punto in un cluster. DBSCAN eccelle nel trovare cluster di forma arbitraria e isola efficacemente gli outlier come rumore.