Yolo 深圳
深セン
今すぐ参加
用語集

特徴量エンジニアリング

専門家による特徴量エンジニアリングで機械学習の精度を向上させましょう。影響力のある特徴を作成、変換、選択するためのテクニックを学びます。

フィーチャー・エンジニアリングとは、生データを予測モデルにとってより効果的な情報属性に変換するために、ドメイン知識を活用する技術と科学である。 に変換する技術と科学である。機械学習 機械学習(ML)の広い範囲では、生データがすぐに処理できる状態にあることは稀である。 ノイズや欠損値、アルゴリズムが直接解釈できないフォーマットを含むことが多い。 を直接解釈することはできない。新しいフィーチャーを作成したり、既存のフィーチャーを修正したりすることで、エンジニアはモデルの精度とパフォーマンスを大幅に向上させることができる。 モデルの精度とパフォーマンスを大幅に向上させることができる。 より複雑なアルゴリズムに単純に移行するよりも、良い結果が得られることが多い。このプロセスは、収集された生の情報と、アルゴリズムに必要な数学的表現との間のギャップを埋めるものである。 と予測モデリングに必要な数学的表現とのギャップを埋める 予測モデリング

フィーチャーエンジニアリングのコア技術

このプロセスは通常、データ中の最も関連性の高いシグナルを明らかにするために設計された、いくつかの反復的なステップを含む。一方 Python Pandas ライブラリのようなツールはこのような操作を容易にするが、この戦略は特定の問題領域を理解することに大きく依存する。 この戦略は、特定の問題領域の理解に大きく依存している。

  • インプットとクリーニング:新しい特徴量を作成する前に、データを安定化させる必要がある。これには 欠損値の処理 データ・クリーニング技術によって欠損値を処理する。 平均値、中央値、または予測値でギャップを埋める。 と呼ばれるプロセスです
  • 変換とスケーリング:多くのアルゴリズムは、入力変数のスケールが大きく異なるとパフォーマンスが低下する。 多くのアルゴリズムは、入力変数のスケールが次のようなテクニックがある。 正規化(データを0から1の範囲にスケーリングする) または標準化(平均値を中心にデータをセンタリングする)のような技法は、単一の特徴が純粋に大きさによって学習プロセスを支配することがないようにする。 を支配しないようにする。
  • カテゴリーデータのエンコード:モデルは一般的に数値入力を必要とする。フィーチャーエンジニアリングには テキストラベルまたは カテゴリデータを 数値に変換する。一般的な方法には、ラベル・エンコーディングと ワンホットエンコーディングがある。
  • フィーチャー構築:これは新しい変数が導き出される創造的な側面である。例えば 例えば不動産データセットでは、「長さ」と「幅」を別々に使う代わりに、エンジニアはそれらを掛け合わせ を掛け合わせ、価格とより強く相関する「平方フィート」フィーチャーを作成する。
  • 特徴の選択:特徴を増やしすぎると モデルがノイズを記憶してしまう。 再帰的特徴除去や 次元削減のようテクニックは 最も影響力のある属性のみを特定し、保持することができます。

コンピュータビジョンにおける特徴工学

コンピュータビジョン(CV)の分野では、特徴工学はしばしば次のような形をとる。 エンジニアリングはしばしば という形で行われることが多い。最新のディープラーニング モデルは階層とパターンを自動的に学習するが、我々は異なる環境条件をシミュレートすることで、よりロバストになるように学習データを「エンジニアリング」することができる。 異なる環境条件をシミュレートすることでハイパーパラメーターのチューニング設定を ハイパーパラメータのチューニング設定を変更することで 幾何学的な変換を含むようにハイパーパラメータチューニング構成を変更することで、モデルが向きや遠近感に不変な特徴を学習できるようになる。

以下のコード・スニペットは、"Augmentation-based Feature Engineering"(オーグメンテーション・ベースのフィーチャー・エンジニアリング)の学習中に、どのように適用するかを示している。 YOLO11 のモデルです。などの引数を調整することで degrees そして shearそこで、元のデータセットから新しい特徴バリエーションを合成する。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentation hyperparameters acting as on-the-fly feature engineering
# 'degrees' rotates images +/- 10 deg, 'shear' changes perspective
model.train(data="coco8.yaml", epochs=3, degrees=10.0, shear=2.5)

実際のアプリケーション

フィーチャー・エンジニアリングの価値は、さまざまな産業での実践的な応用を通じて最もよく理解できる。

  1. 金融リスク評価:金融部門では、生の取引ログは信用力を評価するには不十分である。 信用度を評価するには不十分である。専門家は 金融におけるAI を使用して、「負債対収入」や「信用利用率」などの比率を構築している。これらの工学的 は、財務の健全性を示す直接的なシグナルを提供する。 信用リスクのモデリングが可能になる。 より正確な信用リスク・モデリングを可能にする。
  2. 製造業における予知保全:製造業におけるAI 製造業におけるAIでは、センサーが 振動や温度などの高頻度データを収集します。センサーの生測定値をモデルに直接入力することは、ノイズが多く効果的ではありません。 で効果がありません。その代わりに、エンジニアは 時系列分析を使って "過去1時間のローリング平均温度 "や "振動の標準偏差 "のような機能を作成します。これらの 集計された特徴は、機械の摩耗を示す傾向や異常を、瞬時の値よりもはるかによく捉えることができる。 値です。

関連用語との区別

ワークフローの議論における混乱を避けるために、フィーチャーエンジニアリングを類似の概念と区別することは有用である。

  • フィーチャーエンジニアリングとフィーチャーエクストラクション:同じ意味で使われることが多いが、ニュアンスが異なる。 フィーチャーエンジニアリングは、ドメイン知識に基づいて新しい入力を構築する手作業で創造的なプロセスを意味する。 ドメイン知識。対照的に 特徴抽出は多くの場合、自動化された手法や数学的投影(PCAなど 高次元データを高密度の表現に抽出する自動化された手法や数学的投影(PCAなど)を指すことが多い。深層学習(DL)では ディープラーニング(DL)では 畳み込みニューラルネットワーク(CNN) は、エッジやテクスチャのフィルタを学習することで、自動特徴抽出を行う。
  • フィーチャーエンジニアリングとエンベッディング現代の 現代の自然言語処理(NLP)では、(単語の頻度を数えるような)手作業による特徴量の作成は、ほぼ埋め込みに取って代わられている。 埋め込みです。エンベッディングとは、モデル自身が学習した高密度のベクトル表現です。 意味的な意味を捉えるためにモデル自身が学習する密なベクトル表現です。エンベッディングは特徴量の一種です、 エンベッディングは 自動機械学習(AutoML) プロセスによって学習されます。

フィーチャーエンジニアリングをマスターすることで、開発者はより正確なだけでなく、より効率的なモデルを構築することができる、 より少ない計算パワーで高いパフォーマンスを達成することができます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加