욜로 비전 선전
선전
지금 참여하기
용어집

DBSCAN (Density-Based Spatial Clustering of Applications with Noise, 노이즈 기반 밀도 공간 클러스터링)

DBSCAN을 발견하십시오: 머신 러닝에서 패턴을 식별하고, 노이즈를 처리하고, 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘입니다.

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터 포인트가 밀집되어 있는 그룹을 함께 묶고, 저밀도 영역에 홀로 떨어져 있는 포인트를 이상치로 표시하는 데 사용되는 널리 사용되는 비지도 학습 알고리즘입니다. 다른 클러스터링 방법과 달리 DBSCAN은 클러스터 수를 미리 지정할 필요가 없습니다. 임의 모양의 클러스터를 찾고 노이즈에 강하다는 점 때문에 데이터 마이닝데이터 분석에 유용한 도구입니다. 이 알고리즘은 Martin Ester, Hans-Peter Kriegel, Jörg Sander 및 Xiaowei Xu가 1996년에 발표한 논문에서 처음 소개되었으며, 이는 해당 분야의 기초 작업이 되었습니다.

DBSCAN은 어떻게 작동하나요?

DBSCAN은 주어진 공간에서 데이터 포인트의 밀도를 기반으로 클러스터를 정의합니다. 두 가지 주요 파라미터로 작동합니다.

  • Epsilon (ε 또는 eps): 이 파라미터는 데이터 포인트 주변의 이웃 영역의 반지름을 정의합니다. 이 거리 내의 모든 점은 이웃으로 간주됩니다.
  • 최소 포인트(MinPts): 이는 조밀한 영역 또는 클러스터를 형성하는 데 필요한 최소 데이터 포인트 수(포인트 자체 포함)입니다.

이러한 매개변수를 기반으로 DBSCAN은 모든 데이터 포인트를 세 가지 유형 중 하나로 분류합니다.

  1. 핵심 사항: 점이 최소한 MinPts 내에서 eps neighborhood에 있습니다. 이러한 포인트는 클러스터의 내부입니다.
  2. 국경 지점: 점이 다음과 같으면 경계점입니다. eps 코어 포인트의 neighborhood에 있지만 코어 포인트 자체가 되기에는 충분한 이웃이 없습니다. 이러한 포인트는 클러스터의 가장자리를 형성합니다.
  3. 노이즈 포인트(이상치): 포인트가 핵심 포인트도 경계 포인트도 아니면 노이즈로 간주됩니다. 이는 어떤 클러스터에도 속하지 않는 이상치입니다.

이 알고리즘은 임의의 점에서 시작하여 해당 점의 주변을 검색합니다. 해당 점이 핵심 포인트인 경우 새 클러스터가 생성됩니다. 그런 다음 알고리즘은 직접 도달 가능한 모든 이웃을 클러스터에 추가하여 클러스터를 반복적으로 확장합니다. 이 프로세스는 더 이상 클러스터에 포인트를 추가할 수 없을 때까지 계속됩니다. scikit-learn 문서에서 시각적 구현을 확인할 수 있습니다.

실제 AI/ML 애플리케이션

DBSCAN은 노이즈를 식별하고 비선형 클러스터를 발견하는 능력이 뛰어나 다양한 영역에서 매우 유용합니다.

  • 지리 공간 분석: 도시 계획가와 지리학자는 DBSCAN을 사용하여 공간 데이터를 분석합니다. 예를 들어 교통 사고의 GPS 좌표를 클러스터링하여 사고 핫스팟을 식별할 수 있습니다. 마찬가지로 보고된 질병 사례의 클러스터를 찾아 역학자가 발병을 추적하는 데 도움이 될 수 있습니다. 일본 지리 공간 정보 당국과 같은 기관에서는 매핑을 위해 유사한 밀도 기반 방법을 사용합니다.
  • 금융 분야의 이상 감지: 금융 부문에서 DBSCAN은 사기 거래를 탐지하는 데 사용될 수 있습니다. 고객의 일반적인 지출 패턴을 클러스터링하여 이러한 클러스터 외부에 속하는 모든 거래(즉, 노이즈로 레이블 지정됨)는 추가 조사를 위해 플래그가 지정될 수 있습니다. 이 접근 방식은 최신 사기 탐지 시스템의 핵심 구성 요소입니다.

DBSCAN 및 Ultralytics

Ultralytics 생태계는 주로 지도 학습 모델, 예를 들어 객체 감지, 이미지 분류인스턴스 분할과 같은 작업을 위한 Ultralytics YOLO에 중점을 둡니다. DBSCAN은 비지도 학습 방법이지만, 그 원리는 더 넓은 컴퓨터 비전(CV)의 맥락에서 관련이 있습니다.

예를 들어, 번화한 거리의 비디오에서 YOLO11과 같은 모델로 객체 감지를 수행한 후 감지된 경계 상자의 중심 좌표에 DBSCAN을 적용할 수 있습니다. 이 후처리 단계는 개별 보행자 감지를 뚜렷한 군중으로 그룹화하여 더 높은 수준의 장면 이해를 제공할 수 있습니다. 데이터 세트를 학습용으로 준비할 때 데이터 분포를 이해하는 것도 중요합니다. DBSCAN을 사용한 탐색적 데이터 분석은 데이터 세트의 패턴 또는 이상을 밝힐 수 있으며, 이는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리하고 시각화할 수 있습니다.

관련 용어와의 구별

  • K-평균 군집화(K-Means Clustering): 가장 중요한 차이점은 K-평균은 사용자가 클러스터 수를 지정해야 한다는 것입니다(k)을 미리 결정해야 하는 반면, DBSCAN은 클러스터 수를 자동으로 결정합니다. K-평균은 또한 비구형 클러스터에 어려움을 겪고 모든 점을 클러스터로 강제하기 때문에 이상치에 민감합니다. DBSCAN은 임의의 모양의 클러스터를 찾는 데 탁월하며 이상치를 노이즈로 효과적으로 분리합니다.
  • Hierarchical Clustering: 이 방법은 덴드로그램으로 알려진 클러스터 트리를 만듭니다. 중첩된 클러스터 구조를 시각화하는 데 유용하지만 DBSCAN에 비해 대규모 데이터 세트에서 계산 비용이 더 많이 들 수 있습니다. 둘 사이의 선택은 종종 데이터 세트 크기와 원하는 출력에 따라 달라지며, 이는 올바른 클러스터링 알고리즘 선택 가이드에 설명되어 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.