Descubra o DBSCAN: um algoritmo de clustering robusto para identificar padrões, lidar com ruído e analisar conjuntos de dados complexos em machine learning.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo popular de aprendizado não supervisionado usado para agrupar pontos de dados que estão densamente compactados, marcando como outliers os pontos que estão isolados em regiões de baixa densidade. Ao contrário de outros métodos de clustering, o DBSCAN não exige que o número de clusters seja especificado com antecedência. Sua capacidade de encontrar clusters de formato arbitrário e sua robustez ao ruído o tornam uma ferramenta poderosa para mineração de dados e análise de dados. O algoritmo foi introduzido pela primeira vez em um artigo de 1996 de Martin Ester, Hans-Peter Kriegel, Jörg Sander e Xiaowei Xu, que se tornou um trabalho fundamental na área.
O DBSCAN define clusters com base na densidade de pontos de dados em um determinado espaço. Ele opera com dois parâmetros principais:
eps): Este parâmetro define o raio de uma vizinhança em torno de um ponto de dados. Todos os pontos dentro desta distância são considerados vizinhos.Com base nesses parâmetros, o DBSCAN categoriza cada ponto de dados em um de três tipos:
MinPts dentro do seu eps vizinhança. Esses pontos são o interior de um cluster.eps vizinhança de um ponto central, mas não tem vizinhos suficientes para ser um ponto central em si. Esses pontos formam a borda de um cluster.O algoritmo começa com um ponto arbitrário e recupera sua vizinhança. Se for um ponto central, um novo cluster é criado. O algoritmo então expande iterativamente o cluster adicionando todos os vizinhos diretamente alcançáveis a ele, um processo que continua até que nenhum ponto possa ser adicionado a nenhum cluster. Você pode ver uma implementação visual na documentação do scikit-learn.
A capacidade do DBSCAN de identificar ruídos e descobrir clusters não lineares o torna altamente valioso em vários domínios:
O ecossistema Ultralytics se concentra principalmente em modelos de aprendizado supervisionado, como o Ultralytics YOLO para tarefas que incluem detecção de objetos, classificação de imagens e segmentação de instâncias. Embora o DBSCAN seja um método não supervisionado, seus princípios são relevantes no contexto mais amplo da visão computacional (VC).
Por exemplo, após realizar a detecção de objetos com um modelo como o YOLO11 em um vídeo de uma rua movimentada, o DBSCAN pode ser aplicado às coordenadas centrais das bounding boxes detectadas. Esta etapa de pós-processamento pode agrupar detecções de pedestres individuais em multidões distintas, fornecendo um nível mais alto de compreensão da cena. A compreensão da distribuição de dados também é crucial ao preparar datasets para treinamento. A análise exploratória de dados usando DBSCAN pode revelar padrões ou anomalias no dataset, que podem ser gerenciados e visualizados usando plataformas como o Ultralytics HUB.
k) de antemão, enquanto o DBSCAN determina o número de clusters automaticamente. O K-Means também tem dificuldades com clusters não esféricos e é sensível a outliers, pois força cada ponto a entrar em um cluster. O DBSCAN se destaca na descoberta de clusters de formato arbitrário e isola efetivamente os outliers como ruído.