Descubra o DBSCAN: um algoritmo de agrupamento robusto para identificar padrões, lidar com o ruído e analisar conjuntos de dados complexos na aprendizagem automática.
O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de agrupamento amplamente utilizado na aprendizagem automática (ML) e na extração de dados. Pertence à categoria dos métodos de aprendizagem não supervisionada, o que significa que descobre padrões nos dados sem rótulos predefinidos. O DBSCAN é excelente no agrupamento de pontos de dados que estão muito próximos uns dos outros no espaço de caraterísticas, identificando eficazmente agrupamentos de formas arbitrárias. Um ponto forte é a sua capacidade de marcar pontos isolados em regiões de baixa densidade como outliers ou ruído, tornando-o robusto para conjuntos de dados do mundo real. Ao contrário dos algoritmos que exigem a especificação prévia do número de clusters, o DBSCAN determina os clusters com base na densidade dos dados, oferecendo flexibilidade em várias tarefas de exploração de dados no âmbito da inteligência artificial (IA).
O DBSCAN identifica os clusters com base no conceito de densidade alcançável. Considera os clusters como áreas de alta densidade separadas por áreas de baixa densidade. O comportamento do algoritmo é controlado principalmente por dois parâmetros:
Com base nestes parâmetros, os pontos de dados são categorizados em três tipos:
minPts
vizinhos dentro do seu eps
raio. Estes pontos estão normalmente localizados no interior de um cluster.eps
raio de um ponto central) mas não tem minPts
vizinhos. Os pontos de fronteira situam-se na extremidade dos agrupamentos.O algoritmo começa por selecionar um ponto de dados arbitrário e não visitado. Verifica se o ponto é um ponto central, examinando o seu eps
-vizinhança. Se for um ponto central, é formado um novo cluster e o algoritmo adiciona recursivamente todos os pontos de densidade alcançável (pontos centrais e de fronteira na vizinhança) a este cluster. Se o ponto selecionado for um ponto de ruído, é temporariamente marcado como tal e o algoritmo avança para o próximo ponto não visitado. Este processo continua até que todos os pontos tenham sido visitados e atribuídos a um cluster ou marcados como ruído. Para um mergulho mais profundo na metodologia original, consulte o documento de investigação: "Um algoritmo baseado na densidade para descobrir clusters em grandes bases de dados espaciais com ruído".
O DBSCAN oferece várias vantagens:
No entanto, também tem limitações:
eps
e minPts
. Encontrar parâmetros óptimos pode ser um desafio. Ferramentas como implementações da oferta scikit-learn que pode ser afinada.eps
-minPts
pode não funcionar bem para todos os clusters.O DBSCAN é frequentemente comparado com outros algoritmos de agrupamento, nomeadamente o agrupamento K-means. As principais diferenças incluem:
k
) previamente, enquanto o DBSCAN o determina automaticamente.A capacidade do DBSCAN para encontrar grupos densos e isolar outliers torna-o adequado para várias aplicações:
O ecossistema Ultralytics centra-se principalmente em modelos de aprendizagem supervisionada, como o Ultralytics YOLO, para tarefas que incluem a deteção de objectos, a classificação de imagens e a segmentação de imagens. Embora o DBSCAN, sendo um método não supervisionado, não esteja diretamente integrado nos circuitos de formação principais de modelos como o YOLOv8 ou o YOLO11, os seus princípios são relevantes no contexto mais vasto da visão computacional (CV) e da análise de dados. Compreender a densidade e a distribuição dos dados é crucial na preparação e análise de conjuntos de dados para treino ou no pós-processamento de resultados de modelos, por exemplo, agrupando objectos detectados com base na sua proximidade espacial após a inferência. Plataformas como o Ultralytics HUB fornecem ferramentas para a gestão e visualização de conjuntos de dados, que podem complementar as técnicas de análise exploratória de dados em que podem ser aplicados algoritmos de agrupamento como o DBSCAN.