Yolo 深圳
深セン
今すぐ参加
用語集

次元削減

次元削減技術で高次元データを簡素化します。MLモデルのパフォーマンス、可視化、および効率を今日から改善しましょう!

次元削減は 機械学習(ML)において 高次元のデータを低次元の表現に変換するために使われる。この処理により、ノイズや冗長な変数を除去しながら、元のデータの最も意味のある特性 ノイズや冗長な変数を取り除きながら、元のデータの最も意味のある特性を保持する。入力特徴(しばしば次元と呼ばれる)の数を減らすことで 次元と呼ばれることもある。 次元の呪い」を軽減することができる。 この現象は、入力空間の複雑さが増すにつれてモデルのパフォーマンスが低下する現象である。データの次元を効果的に管理することは ロバストで効率的なAIシステムを構築するためのデータ前処理の重要なステップである。 データ次元を効果的に管理することは、ロバストで効率的なAIシステムを構築するためのデータ前処理の重要なステップである。

寸法を小さくすることの重要性

膨大な数の特徴を持つデータセットの取り扱いには、計算上および統計上の大きな課題がある。 次元削減はこのような問題に対処し、以下のような重要なメリットをもたらします。 AI開発のライフサイクルにいくつかの重要な利点をもたらします:

  • オーバーフィッティングの軽減:十分なサンプルがない高次元データで学習されたモデルは、オーバーフィッティングを起こしやすい。 オーバーフィッティングに陥りやすい。 ノイズを記憶してしまう。次元を減らすことで、モデルの構造が単純化される。
  • 計算効率:フィーチャーが少ないということは、処理するデータが少ないということです。これにより リアルタイム推論に必要なメモリフットプリントを削減します。 削減します。
  • 視覚化の強化:人間の直感は、3次元以上のデータを理解するのに苦労する。 データを2Dまたは3D空間に圧縮する技術によって、洞察に満ちたデータの可視化が可能になる。 データを視覚化し、クラスターや関係性を明らかにする。 関係を明らかにする。
  • ノイズの低減:データ中の最も強いシグナルに焦点を当てることで、次元削減は全体的な精度を向上させます。 をフィルタリングすることで、全体的な精度を向上させることができる。 背景情報を除去することで、全体的な精度を向上させることができる。

一般的な次元削減技法

次元を削減する方法は、一般的に線形と非線形の2つのカテゴリーに分類される。

主成分分析(PCA)

主成分分析(PCA) は、最も広く使われている線形手法である。これは、「主成分」(データの分散が最大になる方向)を特定し、そこにデータを投影することによって機能する。 を特定し、そこにデータを投影する。これにより、データセットの大域的な構造が保持される。 を維持しながら、情報量の少ない次元を捨てる。これは次のようなワークフローの定番である。 教師なし学習ワークフローの定番である。

t分散確率的近傍埋め込み(t-SNE)

複雑な構造の可視化に t-SNEは 一般的な非線形手法である。PCAとは異なり、t-SNEは局所近傍の保存に優れているため、高次元空間で明確なクラスタを分離するのに理想的である。 高次元空間における明確なクラスタを分離するのに理想的です。より深く掘り下げるには、Distillの記事 ご覧ください。

オートエンコーダ

オートエンコーダは ニューラルネットワークの一種で 潜在空間表現に圧縮し、それを再構成するように訓練されたニューラルネットワークの一種である。このアプローチは非線形変換を学習し、現代のディープラーニング(DL)の基本となっている。 現代のディープラーニング(DL)の基本となっている。

AIの実世界での応用

次元削減は理論的なものだけでなく、さまざまな業界にわたる多くの実用的なアプリケーションを後押ししている。

  • コンピュータビジョン画像分類では 画像分類では、生の画像には 何千ものピクセル(次元)が含まれる。 のバックボーンのような畳み込みニューラルネットワーク(CNN)YOLO11のバックボーンのようなCNNは、本質的に 次元削減を行う。CNNは、畳み込みとプーリング層を使って、空間次元をリッチな特徴マップに圧縮する。 特徴マップに圧縮する。 を効率的に検出できるようにする。
  • ゲノミクスとバイオインフォマティクス:生物学的データセットには、多くの場合、何千もの遺伝子の発現レベルが含まれている。 遺伝子の発現レベルが含まれていることが多い。国立ヒトゲノム研究所 国立ヒトゲノム研究所のような機関の研究者は、次元削減を使用して、疾患に関連する遺伝子マーカーを特定する。 疾患に関連する遺伝子マーカーを特定し、複雑な生物学的データを実用的な洞察に単純化します。
  • 自然言語処理:テキストデータは非常に高次元である。例えば 単語埋め込みなどの技法は、数千の語彙を高密度のベクトル(300次元 の語彙を高密度のベクトル(例えば300次元)に変換し、センチメント分析などのタスクのために意味的な意味を捕捉する。 センチメント分析

次元削減対特徴選択

次元削減と特徴選択を区別することは重要である。 区別することが重要である。

  • 特徴選択では元の特徴のサブセットを選択し、残りを捨てる。 例えば、人口統計データセットから "年齢 "と "収入 "だけを残す)。
  • 次元削減(具体的には 特徴抽出)は 新しい特徴は、元の特徴の組み合わせである。例えば、PCAは "身長 "と "体重" と "体重 "を組み合わせて、"サイズ "を表す1つの主成分とする。

コード例

以下のPython スニペットは、人気のあるScikit-learnライブラリを使用して、データセットにPCAを適用する。 データセットにPCAを適用します。これは、5つの特徴を持つデータセットを意味のある2次元に圧縮する方法を示しています。

import numpy as np
from sklearn.decomposition import PCA

# 1. Create dummy data: 3 samples, 5 features each
X = np.array([[10, 20, 30, 40, 50], [15, 25, 35, 45, 55], [12, 22, 32, 42, 52]])

# 2. Initialize PCA to reduce dimensionality to 2 components
pca = PCA(n_components=2)

# 3. Fit and transform the data to lower dimensions
X_reduced = pca.fit_transform(X)

print(f"Original shape: {X.shape}")  # Output: (3, 5)
print(f"Reduced shape: {X_reduced.shape}")  # Output: (3, 2)

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加