用語集

教師なし学習

教師なし学習が、クラスタリング、次元削減、異常検知を使用して、どのようにデータの隠れたパターンを発見するかをご覧ください。

教師なし学習は、機械学習(ML)における基本的なパラダイムであり、ラベル付け、分類、分類されていないデータに対してアルゴリズムを学習する。他の方法とは異なり、システムは対応する出力ラベルを持たずに、データそのものから直接パターンと構造を学習しようとする。主な目的はデータを探索し、意味のある構造やパターンを見つけることであり、人工知能(AI)分野におけるデータ探索と分析の重要なツールとなっている。

教師なし学習の中核タスク

教師なし学習アルゴリズムは通常、探索的データ分析に使用され、いくつかの主なタスクに分類できる:

  • クラスタリングこれは最も一般的な教師なし学習タスクで、データ点をその類似性に基づいてクラスタにグループ化する。目的は、1つのクラスタ内のデータ点を互いに類似性が高く、他のクラスタ内の点とは類似性が低いものにすることである。一般的なアルゴリズムにはK-Means Clusteringや DBSCANがある。
  • 次元削減この手法は、データセット内の入力変数の数を減らすために使用される。モデルを単純化し、計算時間を短縮し、データの可視化に役立つので、高次元データを扱うときに有用である。主成分分析(PCA)は、この作業に広く使われている手法である。
  • アソシエーション・ルール・マイニング:この手法では、大規模なデータベースの変数間の興味深い関係や関連ルールを発見する。典型的な例は「マーケットバスケット分析」であり、店舗でよく一緒に購入される商品間の関係を見つける。

実世界での応用

教師なし学習は、多くの産業でイノベーションを促進する。具体例をいくつか紹介しよう:

  1. 顧客セグメンテーション:小売業やeコマース企業は、クラスタリング・アルゴリズムを使って、行動や嗜好が類似した顧客をグループ化する。購買履歴、閲覧行動、デモグラフィックを分析することで、企業はターゲットを絞ったマーケティング・キャンペーンを実施し、パーソナライズされたレコメンデーションを提供し、顧客体験を向上させることができる。
  2. 異常検知:サイバーセキュリティでは、教師なし学習モデルは、セキュリティ侵害を示す可能性のある異常なネットワーク・トラフィックを識別することができる。同様に、製造業では、これらのアルゴリズムは、現代の品質検査の重要な要素である標準からの逸脱を識別することによって、組立ライン上の製品の欠陥を検出することができる。

他の学習パラダイムとの比較

教師なし学習は、他のMLアプローチとは大きく異なる:

  • 教師あり学習 分類や 回帰のようなタスクのモデルを学習するために、ラベル付けされたデータ(入力と出力のペア)に依存する。目標は、入力を既知の出力に対応付けることである。教師あり学習と教師なし学習の比較で詳細を見ることができる。
  • 強化学習エージェントは、累積報酬を最大化するために、環境内で行動を実行することによって意思決定を行うことを学習する。フィードバック信号(報酬またはペナルティ)に導かれながら、試行錯誤を通じて学習する。深層強化学習の概要を参照。
  • 半教師あり学習教師あり学習と教師なし学習のギャップを埋めるために、少量のラベル付きデータと大量のラベルなしデータの組み合わせを使用する。
  • 教師なし学習教師なし学習のサブセットで、入力データ自体からラベルが自動的に生成される。自然言語処理(NLP)やコンピュータ・ビジョン(CV)のような大規模モデルの事前学習によく使われる。

教師なし学習は、データを探索し、隠れた構造を発見し、価値ある特徴を抽出するための強力なツールである。教師ありモデルにデータを投入する前にデータの前処理を行うなど、複雑なデータサイエンスパイプラインの重要な最初のステップとして機能することが多い。Ultralytics HUBのようなプラットフォームは、データセットを分析するための教師なし手法を取り入れる可能性のある様々なMLモデルを開発・管理できる環境を提供する。PyTorchや TensorFlowのようなフレームワークは、教師なしアルゴリズムの実装をサポートする広範なライブラリを提供しており、Scikit-learnの教師なし学習ガイドのようなリソースでさらに調べることができる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク