ヨロビジョン深圳
深セン
今すぐ参加
用語集

DBSCAN(ノイズを伴う応用における密度ベースの空間クラスタリング)

DBSCANについて解説します。DBSCANは、機械学習におけるパターン識別、ノイズ処理、および複雑なデータセットの分析のための堅牢なクラスタリングアルゴリズムです。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise:ノイズを伴う応用を対象とした、密度に基づいた空間クラスタリング)は、教師なし学習アルゴリズムとして広く利用されており、データポイントを密集度に基づいてグループ化し、低密度領域に単独で存在する点を外れ値としてマークします。他のクラスタリング手法とは異なり、DBSCANは事前にクラスタ数を指定する必要がありません。任意の形状のクラスタを検出できる能力と、ノイズに対する堅牢性により、データマイニングおよびデータ分析のための強力なツールとなっています。このアルゴリズムは、Martin Ester、Hans-Peter Kriegel、Jörg Sander、Xiaowei Xuによって1996年の論文で初めて発表され、この分野の基礎的な研究となりました。

DBSCANの仕組み

DBSCANは、与えられた空間におけるデータポイントの密度に基づいてクラスタを定義します。これは、次の2つの主要なパラメータに基づいて動作します。

  • イプシロン(ε または eps): このパラメータは、データポイント周辺の近傍の半径を定義します。この距離内にあるすべてのポイントが近傍と見なされます。
  • 最小ポイント数 (MinPts): これは、密な領域またはクラスターを形成するために必要なデータポイントの最小数(ポイント自体を含む)です。

これらのパラメータに基づいて、DBSCANはすべてのデータポイントを次の3つのタイプに分類します。

  1. コアポイント: ある点が、少なくとも MinPts その中で eps 近傍点。これらの点は、クラスタの内部にあります。
  2. 境界点: 点がボーダー点であるのは、その点が eps コアポイントの近傍にありますが、それ自体がコアポイントとなるのに十分な近傍点を持っていません。これらの点は、クラスタの端を形成します。
  3. ノイズ点(外れ値): ある点が、コア点でも境界点でもない場合、ノイズと見なされます。これらは、どのクラスタにも属さない外れ値です。

アルゴリズムは任意の点から開始し、その近傍を取得します。それがコアポイントである場合、新しいクラスタが作成されます。次に、アルゴリズムは、直接到達可能なすべての隣接点をクラスタに追加することにより、クラスタを反復的に拡張します。このプロセスは、どのクラスタにもポイントを追加できなくなるまで継続されます。scikit-learnのドキュメントで視覚的な実装を確認できます。

現実世界のAI/MLアプリケーション

DBSCANは、ノイズを識別し、非線形クラスタを発見する能力により、さまざまな分野で非常に価値があります。

  • Geospatial Analysis: 都市計画家や地理学者は、DBSCANを使用して空間データを分析します。たとえば、交通事故のGPS座標をクラスタリングすることにより、事故のホットスポットを特定できます。同様に、報告された疾患症例のクラスターを見つけるために使用でき、疫学者がアウトブレイクを追跡するのに役立ちます。日本の国土地理院のような組織は、マッピングに同様の密度ベースの方法を使用しています。
  • 金融分野における異常検知: 金融分野では、DBSCAN を使用して不正な取引を検出できます。顧客の典型的な支出パターンをクラスタリングすることにより、これらのクラスタから外れる取引(つまり、ノイズとしてラベル付けされる取引)は、詳細な調査のためにフラグが立てられます。このアプローチは、最新の不正検出システムの重要な要素です。

DBSCANとUltralytics

Ultralyticsエコシステムは、主に教師あり学習モデル(オブジェクト検出画像分類インスタンスセグメンテーションなどのタスク向けのUltralytics YOLOなど)に焦点を当てています。DBSCANは教師なしメソッドですが、その原則はコンピュータビジョン(CV)のより広いコンテキストに関連しています。

例えば、交通量の多い道路のビデオでYOLO11のようなモデルを使用して物体検出を実行した後、検出されたバウンディングボックスの中心座標にDBSCANを適用できます。この後処理ステップは、個々の歩行者の検出を明確な群衆にグループ化し、より高度なシーン理解を提供します。データの分布を理解することは、トレーニング用のデータセットを準備する際にも重要です。DBSCANを使用した探索的データ分析は、データセット内のパターンまたは異常を明らかにし、Ultralytics HUBのようなプラットフォームを使用して管理および視覚化できます。

関連用語との区別

  • K-Meansクラスタリング: 最も重要な違いは、K-Meansでは、ユーザーがクラスターの数を指定する必要があることです(k)を事前に決定する必要がありますが、DBSCANはクラスタの数を自動的に決定します。K-Meansはまた、非球形のクラスタに苦労し、すべての点をクラスタに強制するため、外れ値に敏感です。DBSCANは、任意の形状のクラスタを見つけるのに優れており、外れ値をノイズとして効果的に分離します。
  • 階層型クラスタリング: この手法は、デンドログラムとして知られるクラスタのツリーを作成します。ネストされたクラスタ構造を視覚化するのに役立ちますが、DBSCANと比較して、大規模なデータセットでは計算コストが高くなる可能性があります。どちらを選択するかは、データセットのサイズと必要な出力によって異なります。適切なクラスタリングアルゴリズムの選択に関するガイドを参照してください。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました