DBSCANについて解説します。DBSCANは、機械学習におけるパターン識別、ノイズ処理、および複雑なデータセットの分析のための堅牢なクラスタリングアルゴリズムです。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise:ノイズを伴う応用を対象とした、密度に基づいた空間クラスタリング)は、教師なし学習アルゴリズムとして広く利用されており、データポイントを密集度に基づいてグループ化し、低密度領域に単独で存在する点を外れ値としてマークします。他のクラスタリング手法とは異なり、DBSCANは事前にクラスタ数を指定する必要がありません。任意の形状のクラスタを検出できる能力と、ノイズに対する堅牢性により、データマイニングおよびデータ分析のための強力なツールとなっています。このアルゴリズムは、Martin Ester、Hans-Peter Kriegel、Jörg Sander、Xiaowei Xuによって1996年の論文で初めて発表され、この分野の基礎的な研究となりました。
DBSCANは、与えられた空間におけるデータポイントの密度に基づいてクラスタを定義します。これは、次の2つの主要なパラメータに基づいて動作します。
eps): このパラメータは、データポイント周辺の近傍の半径を定義します。この距離内にあるすべてのポイントが近傍と見なされます。これらのパラメータに基づいて、DBSCANはすべてのデータポイントを次の3つのタイプに分類します。
MinPts その中で eps 近傍点。これらの点は、クラスタの内部にあります。eps コアポイントの近傍にありますが、それ自体がコアポイントとなるのに十分な近傍点を持っていません。これらの点は、クラスタの端を形成します。アルゴリズムは任意の点から開始し、その近傍を取得します。それがコアポイントである場合、新しいクラスタが作成されます。次に、アルゴリズムは、直接到達可能なすべての隣接点をクラスタに追加することにより、クラスタを反復的に拡張します。このプロセスは、どのクラスタにもポイントを追加できなくなるまで継続されます。scikit-learnのドキュメントで視覚的な実装を確認できます。
DBSCANは、ノイズを識別し、非線形クラスタを発見する能力により、さまざまな分野で非常に価値があります。
Ultralyticsエコシステムは、主に教師あり学習モデル(オブジェクト検出、画像分類、インスタンスセグメンテーションなどのタスク向けのUltralytics YOLOなど)に焦点を当てています。DBSCANは教師なしメソッドですが、その原則はコンピュータビジョン(CV)のより広いコンテキストに関連しています。
例えば、交通量の多い道路のビデオでYOLO11のようなモデルを使用して物体検出を実行した後、検出されたバウンディングボックスの中心座標にDBSCANを適用できます。この後処理ステップは、個々の歩行者の検出を明確な群衆にグループ化し、より高度なシーン理解を提供します。データの分布を理解することは、トレーニング用のデータセットを準備する際にも重要です。DBSCANを使用した探索的データ分析は、データセット内のパターンまたは異常を明らかにし、Ultralytics HUBのようなプラットフォームを使用して管理および視覚化できます。
k)を事前に決定する必要がありますが、DBSCANはクラスタの数を自動的に決定します。K-Meansはまた、非球形のクラスタに苦労し、すべての点をクラスタに強制するため、外れ値に敏感です。DBSCANは、任意の形状のクラスタを見つけるのに優れており、外れ値をノイズとして効果的に分離します。