YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

K近傍法(KNN)

K-Nearest Neighbors(KNN)が、分類および回帰タスクに対する直感的でノンパラメトリックなアプローチにより、機械学習を簡素化する様子をご覧ください。

K-Nearest Neighbors(KNN)は、分類タスクと回帰タスクの両方に使用される、教師あり学習の基礎となるアルゴリズムです。これは、トレーニングデータフェーズ中にモデルを構築しないため、インスタンスベースまたは「遅延学習」アルゴリズムと見なされます。代わりに、データセット全体を保存し、保存されたデータ内で最も類似したインスタンス(近傍)を「K」個見つけることによって予測を行います。中心となる考え方は、類似したデータ点は近い場所に存在するというものです。新しい、未分類のデータ点について、KNNはその最も近い近傍を識別し、それらのラベルを使用して、自身の分類または値を決定します。

KNN(K近傍法)の仕組み

KNNアルゴリズムは、通常は距離メトリクスによって測定される、類似性の単純な原理に基づいて動作します。最も一般的なものはユークリッド距離ですが、データセットに応じて他のメトリクスを使用できます。

予測を行うプロセスは簡単です。

  1. Kの値を選択してください: 考慮する近傍の数(K)は重要なハイパーパラメータです。Kの選択は、モデルのパフォーマンスに大きく影響する可能性があります。
  2. 距離の計算: 新しいデータポイントについて、アルゴリズムはトレーニングデータセット内の他のすべてのポイントとの間の距離を計算します。
  3. 近傍点の識別:新しい点に最も近いトレーニングセットからK個のデータ点を識別します。 これらが「最近傍点」です。
  4. 予測を行う:
    • 分類タスクの場合、アルゴリズムは多数決を行います。新しいデータポイントには、K個の最も近い隣接点のなかで最も一般的なクラスが割り当てられます。たとえば、K=5で、3つの隣接点がクラスA、2つがクラスBの場合、新しいポイントはクラスAとして分類されます。
    • 回帰タスクの場合、アルゴリズムは、K個の最も近い隣接点の値の平均を計算します。この平均が、新しいデータポイントの予測値になります。

実際のアプリケーション

KNNはそのシンプルさと直感的な性質から、特にベースラインモデルとして、さまざまなアプリケーションで役立ちます。

  • レコメンデーションシステム:KNNは、レコメンデーションエンジンの構築によく使用されます。たとえば、ストリーミングサービスは、同様の視聴履歴を持つ他のユーザー(近傍)を特定することにより、ユーザーに映画を推奨できます。これらの近傍が楽しんでいて、ターゲットユーザーがまだ見ていない映画が推奨されます。この手法は、協調フィルタリングの一形態です。
  • 金融サービス: 金融では、KNNをクレジットスコアリングに使用できます。新しいローン申請者を、既知の信用実績を持つ過去の申請者のデータベースと比較することにより、アルゴリズムは、新しい申請者が不履行になる可能性を予測できます。近傍は、同様の財務プロファイル(年齢、収入、債務水準など)を持つ過去の申請者であり、それらの不履行履歴が予測に役立ちます。これにより、初期のリスク評価が自動化されます。

KNNと関連概念の比較

KNNを他の一般的な機械学習アルゴリズムと区別することが重要です。

  • K-Meansクラスタリング: 名前は似ていますが、機能は大きく異なります。K-Meansは、データをK個の異なる、重複しないサブグループ(クラスター)に分割するために使用される教師なし学習アルゴリズムです。対照的に、KNNはラベル付きデータに基づいて予測を行うために使用される教師ありアルゴリズムです。
  • サポートベクターマシン(SVM):SVMは、特徴空間内の異なるクラスを分離する最適な超平面を見つけようとする教師ありアルゴリズムです。KNNはローカルな近傍類似性に基づいて決定を下しますが、SVMはグローバルな最適境界を見つけることを目指しており、そのアプローチは根本的に異なります。詳細については、Scikit-learn SVMのページをご覧ください。
  • 決定木: 決定木は、階層的なルールベースの決定モデルを作成してデータを分類します。これにより、ツリーのような構造が生成されます。一方、KNN は明示的なルールを学習せずに、距離ベースの類似性に依存します。詳細については、Scikit-learn の決定木に関するドキュメントをご覧ください。

KNNは、基本的な機械学習の概念を理解し、小規模で適切にキュレーションされたデータセットで使用するには価値のあるツールですが、ビッグデータを用いたリアルタイム推論では計算負荷が高くなる可能性があります。リアルタイムの物体検出のような複雑なコンピュータビジョンタスクには、Ultralytics YOLOのようなより高度なモデルが、その優れた速度と精度から好まれます。これらのモデルは、Ultralytics HUBのようなプラットフォームを使用して簡単にトレーニングおよびデプロイできます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました