主成分分析(PCA)で高次元データを簡素化しましょう。AI、MLモデル、およびデータ視覚化の効率を今日から向上させましょう!
主成分分析(PCA)は、機械学習(ML)における次元削減のための基本的な手法です。その主な目的は、可能な限り元の情報(分散)を保持しながら、高次元データの複雑さを単純化することです。これは、元の変数のセットを「主成分」と呼ばれる新しい、より小さい、相関のない変数のセットに変換することによって実現されます。これらの成分は、最初のいくつかの成分が元のデータセットに存在する変動のほとんどを保持するように順序付けられています。これにより、PCAはデータの前処理、データ探索、およびデータの可視化に不可欠なツールになります。
PCAは、本質的に、データセット内の最大分散の方向を特定します。データ点の散布図を想像してください。PCAは、データの広がりを最もよく捉える線を見つけます。この線は、最初の主成分を表します。2番目の主成分は、最初の主成分に垂直な別の線で、次に大きい分散量を捉えます。元のデータをこれらの新しいコンポーネントに投影することにより、PCAは、ノイズをフィルタリングし、最も重要なパターンを強調する低次元表現を作成します。このプロセスは、過学習のリスクを軽減し、トレーニングに必要な計算リソースを削減することにより、モデルのパフォーマンスを向上させるために重要です。
PCAは、人工知能(AI)およびコンピュータビジョン(CV)内のさまざまな分野で広く使用されています。
PCAは線形手法であり、変数間の関係が線形であると仮定します。強力で解釈可能ですが、複雑な非線形構造を効果的に捉えられない場合があります。
より高度な技術が存在しますが、PCAは依然として貴重なツールであり、データ探索および前処理パイプラインにおけるベースラインまたは初期ステップとしてよく使用されます。Ultralyticsエコシステム内では、Ultralytics YOLOのようなモデルは、そのCNNバックボーン内に組み込みの特徴抽出を利用していますが、次元削減の原則は重要です。Ultralytics HUBのようなプラットフォームは、データセットの整理からモデルのデプロイまで、MLワークフロー全体の管理を支援し、このような前処理ステップは最適な結果を達成するために重要です。