DBSCAN을 발견하십시오: 머신 러닝에서 패턴을 식별하고, 노이즈를 처리하고, 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘입니다.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터 포인트가 밀집되어 있는 그룹을 함께 묶고, 저밀도 영역에 홀로 떨어져 있는 포인트를 이상치로 표시하는 데 사용되는 널리 사용되는 비지도 학습 알고리즘입니다. 다른 클러스터링 방법과 달리 DBSCAN은 클러스터 수를 미리 지정할 필요가 없습니다. 임의 모양의 클러스터를 찾고 노이즈에 강하다는 점 때문에 데이터 마이닝 및 데이터 분석에 유용한 도구입니다. 이 알고리즘은 Martin Ester, Hans-Peter Kriegel, Jörg Sander 및 Xiaowei Xu가 1996년에 발표한 논문에서 처음 소개되었으며, 이는 해당 분야의 기초 작업이 되었습니다.
DBSCAN은 주어진 공간에서 데이터 포인트의 밀도를 기반으로 클러스터를 정의합니다. 두 가지 주요 파라미터로 작동합니다.
eps): 이 파라미터는 데이터 포인트 주변의 이웃 영역의 반지름을 정의합니다. 이 거리 내의 모든 점은 이웃으로 간주됩니다.이러한 매개변수를 기반으로 DBSCAN은 모든 데이터 포인트를 세 가지 유형 중 하나로 분류합니다.
MinPts 내에서 eps neighborhood에 있습니다. 이러한 포인트는 클러스터의 내부입니다.eps 코어 포인트의 neighborhood에 있지만 코어 포인트 자체가 되기에는 충분한 이웃이 없습니다. 이러한 포인트는 클러스터의 가장자리를 형성합니다.이 알고리즘은 임의의 점에서 시작하여 해당 점의 주변을 검색합니다. 해당 점이 핵심 포인트인 경우 새 클러스터가 생성됩니다. 그런 다음 알고리즘은 직접 도달 가능한 모든 이웃을 클러스터에 추가하여 클러스터를 반복적으로 확장합니다. 이 프로세스는 더 이상 클러스터에 포인트를 추가할 수 없을 때까지 계속됩니다. scikit-learn 문서에서 시각적 구현을 확인할 수 있습니다.
DBSCAN은 노이즈를 식별하고 비선형 클러스터를 발견하는 능력이 뛰어나 다양한 영역에서 매우 유용합니다.
Ultralytics 생태계는 주로 지도 학습 모델, 예를 들어 객체 감지, 이미지 분류 및 인스턴스 분할과 같은 작업을 위한 Ultralytics YOLO에 중점을 둡니다. DBSCAN은 비지도 학습 방법이지만, 그 원리는 더 넓은 컴퓨터 비전(CV)의 맥락에서 관련이 있습니다.
예를 들어, 번화한 거리의 비디오에서 YOLO11과 같은 모델로 객체 감지를 수행한 후 감지된 경계 상자의 중심 좌표에 DBSCAN을 적용할 수 있습니다. 이 후처리 단계는 개별 보행자 감지를 뚜렷한 군중으로 그룹화하여 더 높은 수준의 장면 이해를 제공할 수 있습니다. 데이터 세트를 학습용으로 준비할 때 데이터 분포를 이해하는 것도 중요합니다. DBSCAN을 사용한 탐색적 데이터 분석은 데이터 세트의 패턴 또는 이상을 밝힐 수 있으며, 이는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리하고 시각화할 수 있습니다.
k)을 미리 결정해야 하는 반면, DBSCAN은 클러스터 수를 자동으로 결정합니다. K-평균은 또한 비구형 클러스터에 어려움을 겪고 모든 점을 클러스터로 강제하기 때문에 이상치에 민감합니다. DBSCAN은 임의의 모양의 클러스터를 찾는 데 탁월하며 이상치를 노이즈로 효과적으로 분리합니다.