YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

K-平均法クラスタリング

K-Meansクラスタリングは、データをクラスタにグループ化するための重要な教師なし学習アルゴリズムです。そのプロセス、アプリケーション、および比較について学びましょう。

K-Meansクラスタリングは、教師なし学習の基礎となるアルゴリズムであり、データマイニング機械学習(ML)で利用されています。その主な目的は、データセットを、事前に指定された数だけ存在する、互いに重なり合わない明確なサブグループ、すなわち「クラスタ」に分割することです。その名前にある「K」は、このクラスタの数を指しています。このアルゴリズムは、データの類似性に基づいてデータ点をグループ化することで機能します。類似性は、多くの場合、点間のユークリッド距離によって測定されます。各クラスタは、その中心(セントロイドとして知られています)によって表され、これはそのクラスタ内のすべてのデータ点の平均です。これは、ラベル付けされていないデータに潜むパターンと構造を発見するための、強力でありながらシンプルな手法です。

K-Meansの仕組み

K-Meansアルゴリズムは、すべてのデータポイントに対して最適なクラスタ割り当てを見つけるために、反復的に動作します。このプロセスは、いくつかの簡単なステップに分解できます。

  1. 初期化: まず、クラスタ数Kを選択します。次に、K個の初期セントロイドをデータセットの特徴空間内にランダムに配置します。
  2. 割り当てステップ: トレーニングデータからの各データポイントは、最も近いセントロイドに割り当てられます。これにより、K個の初期クラスタが形成されます。
  3. 更新ステップ: 各クラスタの重心は、そのクラスタに割り当てられたすべてのデータ点の平均を取ることによって再計算されます。
  4. イテレーション: クラスターの割り当てが変更されなくなるか、最大イテレーション回数に達するまで、割り当てと更新の手順が繰り返されます。この時点で、アルゴリズムは収束し、最終的なクラスターが形成されます。より直感的な理解のために、K-Meansアルゴリズムの視覚的な説明をご覧ください。

Kに適切な値を選ぶことは非常に重要であり、多くの場合、ドメイン知識や、エルボー法やシルエットスコアのような手法を使用する必要があります。実装は、Scikit-learnのようなライブラリで広く利用可能です。

実際のアプリケーション

K-Meansは、そのシンプルさと効率性から、さまざまな分野で応用されています。

  • 顧客セグメンテーション: 小売およびマーケティングでは、企業はK-Meansを使用して、購買履歴、人口統計、または行動に基づいて顧客を異なるセグメントにグループ化します。たとえば、企業は「高額支出のロイヤリスト」クラスターと「予算を意識した時折買い物客」クラスターを特定するかもしれません。これにより、クラスタリングを使用した顧客セグメンテーションに関する調査で説明されているように、対象を絞ったマーケティング戦略が可能になります。
  • 画像圧縮: コンピュータビジョン (CV)では、K-Meansは次元削減の一形態であるカラー量子化に使用されます。類似したピクセルカラーをK個のクラスターにグループ化し、各ピクセルのカラーをクラスターのセントロイドカラーに置き換えます。これにより、画像内のカラー数が減少し、効果的に圧縮されます。この手法は、画像セグメンテーションの基本的な概念です。
  • ドキュメント分析: アルゴリズムは、ドキュメントをその用語の頻度に基づいてクラスタリングし、トピックを識別したり、類似の記事をグループ化したりできます。これは、大規模なテキストデータセットの整理に役立ちます。

K-Meansと関連概念の比較

K-Means法を他の機械学習アルゴリズムと区別することが重要です。

  • K近傍法(KNN): これはよくある混乱のポイントです。K-Meansは、ラベルなしデータをグループ化する教師なしクラスタリングアルゴリズムです。対照的に、KNNは、K個の最も近い隣接点のラベルに基づいて新しいデータポイントのラベルを予測する教師あり分類または回帰アルゴリズムです。K-Meansはグループを作成しますが、KNNは事前定義されたグループに分類します
  • サポートベクターマシン(SVM):SVMは、クラスを分離するための最適な超平面を見つける分類に使用される教師あり学習モデルです。K-Meansは教師なしであり、事前定義されたラベルなしで類似性に基づいてデータをグループ化します。
  • DBSCAN:K-Meansとは異なり、DBSCANは密度ベースのクラスタリングアルゴリズムであり、任意の形状のクラスタを識別でき、外れ値に対して堅牢です。K-Meansはクラスタが球形であると仮定し、外れ値の影響を大きく受ける可能性があります。

K-Meansはデータ探索の基本的なツールですが、リアルタイムの物体検出のような複雑なタスクは、より高度なモデルに依存しています。Ultralytics YOLOのような最新の検出器は、優れた性能のために高度な深層学習技術を使用しています。ただし、アンカーボックスのグループ化のようなクラスタリングの概念は、初期の物体検出器の開発における基礎でした。このようなタスクのデータセットの管理は、Ultralytics HUBのようなプラットフォームを使用して効率化できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました