用語集

次元削減

次元削減技術で高次元データを簡素化します。MLモデルのパフォーマンス、可視化、および効率を今日から改善しましょう！

次元削減は機械学習（ML）において高次元のデータを低次元の表現に変換するために使われる。この処理により、ノイズや冗長な変数を除去しながら、元のデータの最も意味のある特性ノイズや冗長な変数を取り除きながら、元のデータの最も意味のある特性を保持する。入力特徴（しばしば次元と呼ばれる）の数を減らすことで次元と呼ばれることもある。次元の呪い」を軽減することができる。この現象は、入力空間の複雑さが増すにつれてモデルのパフォーマンスが低下する現象である。データの次元を効果的に管理することはロバストで効率的なAIシステムを構築するためのデータ前処理の重要なステップである。データ次元を効果的に管理することは、ロバストで効率的なAIシステムを構築するためのデータ前処理の重要なステップである。

寸法を小さくすることの重要性

膨大な数の特徴を持つデータセットの取り扱いには、計算上および統計上の大きな課題がある。次元削減はこのような問題に対処し、以下のような重要なメリットをもたらします。 AI開発のライフサイクルにいくつかの重要な利点をもたらします：

オーバーフィッティングの軽減：十分なサンプルがない高次元データで学習されたモデルは、オーバーフィッティングを起こしやすい。オーバーフィッティングに陥りやすい。ノイズを記憶してしまう。次元を減らすことで、モデルの構造が単純化される。
計算効率：フィーチャーが少ないということは、処理するデータが少ないということです。これによりリアルタイム推論に必要なメモリフットプリントを削減します。を削減します。
視覚化の強化：人間の直感は、3次元以上のデータを理解するのに苦労する。データを2Dまたは3D空間に圧縮する技術によって、洞察に満ちたデータの可視化が可能になる。データを視覚化し、クラスターや関係性を明らかにする。関係を明らかにする。
ノイズの低減：データ中の最も強いシグナルに焦点を当てることで、次元削減は全体的な精度を向上させます。をフィルタリングすることで、全体的な精度を向上させることができる。背景情報を除去することで、全体的な精度を向上させることができる。

一般的な次元削減技法

次元を削減する方法は、一般的に線形と非線形の2つのカテゴリーに分類される。

主成分分析（PCA）

主成分分析（PCA）は、最も広く使われている線形手法である。これは、「主成分」（データの分散が最大になる方向）を特定し、そこにデータを投影することによって機能する。を特定し、そこにデータを投影する。これにより、データセットの大域的な構造が保持される。を維持しながら、情報量の少ない次元を捨てる。これは次のようなワークフローの定番である。教師なし学習ワークフローの定番である。

t分散確率的近傍埋め込み(t-SNE)

複雑な構造の可視化に t-SNEは一般的な非線形手法である。PCAとは異なり、t-SNEは局所近傍の保存に優れているため、高次元空間で明確なクラスタを分離するのに理想的である。高次元空間における明確なクラスタを分離するのに理想的です。より深く掘り下げるには、Distillの記事をご覧ください。

オートエンコーダ

オートエンコーダはニューラルネットワークの一種で潜在空間表現に圧縮し、それを再構成するように訓練されたニューラルネットワークの一種である。このアプローチは非線形変換を学習し、現代のディープラーニング（DL）の基本となっている。現代のディープラーニング（DL）の基本となっている。

AIの実世界での応用

次元削減は理論的なものだけでなく、さまざまな業界にわたる多くの実用的なアプリケーションを後押ししている。

コンピュータビジョン画像分類では画像分類では、生の画像には何千ものピクセル（次元）が含まれる。のバックボーンのような畳み込みニューラルネットワーク（CNN）。 YOLO11のバックボーンのようなCNNは、本質的に次元削減を行う。CNNは、畳み込みとプーリング層を使って、空間次元をリッチな特徴マップに圧縮する。特徴マップに圧縮する。を効率的に検出できるようにする。
ゲノミクスとバイオインフォマティクス：生物学的データセットには、多くの場合、何千もの遺伝子の発現レベルが含まれている。遺伝子の発現レベルが含まれていることが多い。国立ヒトゲノム研究所国立ヒトゲノム研究所のような機関の研究者は、次元削減を使用して、疾患に関連する遺伝子マーカーを特定する。疾患に関連する遺伝子マーカーを特定し、複雑な生物学的データを実用的な洞察に単純化します。
自然言語処理：テキストデータは非常に高次元である。例えば単語埋め込みなどの技法は、数千の語彙を高密度のベクトル（300次元の語彙を高密度のベクトル（例えば300次元）に変換し、センチメント分析などのタスクのために意味的な意味を捕捉する。センチメント分析。

次元削減対特徴選択

次元削減と特徴選択を区別することは重要である。を区別することが重要である。

特徴選択では、元の特徴のサブセットを選択し、残りを捨てる。例えば、人口統計データセットから "年齢 "と "収入 "だけを残す）。
次元削減（具体的には特徴抽出）は 新しい特徴は、元の特徴の組み合わせである。例えば、PCAは "身長 "と "体重" と "体重 "を組み合わせて、"サイズ "を表す1つの主成分とする。

コード例

以下のPython スニペットは、人気のあるScikit-learnライブラリを使用して、データセットにPCAを適用する。データセットにPCAを適用します。これは、5つの特徴を持つデータセットを意味のある2次元に圧縮する方法を示しています。

import numpy as np
from sklearn.decomposition import PCA

# 1. Create dummy data: 3 samples, 5 features each
X = np.array([[10, 20, 30, 40, 50], [15, 25, 35, 45, 55], [12, 22, 32, 42, 52]])

# 2. Initialize PCA to reduce dimensionality to 2 components
pca = PCA(n_components=2)

# 3. Fit and transform the data to lower dimensions
X_reduced = pca.fit_transform(X)

print(f"Original shape: {X.shape}")  # Output: (3, 5)
print(f"Reduced shape: {X_reduced.shape}")  # Output: (3, 2)

次元削減

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

寸法を小さくすることの重要性

一般的な次元削減技法

主成分分析（PCA）

t分散確率的近傍埋め込み(t-SNE)

オートエンコーダ

AIの実世界での応用

次元削減対特徴選択

コード例

このカテゴリの関連記事

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics YOLO モデルによる衝突予測の向上

Ultralytics コミュニティに参加する