主成分分析(PCA)で高次元データを簡素化。AI、MLモデル、データ可視化の効率を今すぐ向上させます!
主成分分析(PCA)は、機械学習(ML)における次元削減の基本的な手法である。その主な目的は、元の情報(分散)をできるだけ保持しながら、高次元データの複雑さを単純化することである。これは、元の変数集合を "主成分 "と呼ばれる相関のない新しい小さな変数集合に変換することで達成される。これらの成分は、最初の数個が元のデータセットに存在する変動のほとんどを保持するように並べられる。このためPCAは、データの前処理、データの探索、データの可視化において非常に貴重なツールとなる。
その核心は、PCAがデータセットの最大分散の方向を特定することである。データ点の散布図を想像してほしい。PCAは、データの広がりを最もよく捉える線を見つける。この線は第1主成分を表す。第2主成分は、第1主成分に垂直な別の直線で、次に大きな分散を捉えます。元のデータをこれらの新しい成分に投影することで、PCAはノイズをフィルタリングし、最も重要なパターンを強調する低次元の表現を作成する。このプロセスは、オーバーフィッティングのリスクを低減し、学習に必要な計算リソースを削減することで、モデルの性能を向上させるために極めて重要である。
PCAは、人工知能(AI)やコンピュータビジョン(CV)の様々な領域で広く使用されている。
PCAは線形手法であり、変数間の関係が線形であることを前提としている。強力で解釈しやすい反面、複雑な非線形構造を効果的に捉えることができない場合がある。
より高度な技術が存在する一方で、PCAは依然として貴重なツールであり、データ探索や前処理パイプラインのベースラインや初期段階として使用されることがよくあります。Ultralyticsのエコシステムでは、Ultralytics YOLOのようなモデルがCNNバックボーンに組み込まれた特徴抽出を利用する一方で、次元削減の原則が鍵となります。Ultralytics HUBのようなプラットフォームは、データセットの整理からモデルのデプロイまで、MLのワークフロー全体を管理するのに役立ちます。