用語集

フィーチャー・エンジニアリング

専門家による特徴エンジニアリングで機械学習の精度を向上させます。インパクトのある特徴量を作成、変換、選択するテクニックを学びます。

フィーチャー・エンジニアリングは、予測モデルにとって根本的な問題をよりよく表現するフィーチャーを選択、作成、変換するために、ドメイン知識を使用して生データを使用するプロセスです。これは機械学習(ML)パイプラインの重要なステップであり、しばしば時間のかかるステップです。なぜなら特徴の質は、結果として得られるモデルの性能と精度に直接影響するからです。効果的な特徴エンジニアリングは、平凡なモデルと高精度のモデルの違いとなり得ます。多くの場合、別のアルゴリズムを選択したり、大規模なハイパーパラメータチューニングを行ったりするよりも、より大きな性能向上をもたらします。

## フィーチャー・エンジニアリング・プロセス

フィーチャーエンジニアリングは、領域の専門知識と数学的テクニックを融合させたアートでありサイエンスでもある。このプロセスは、いくつかの一般的なアクティビティに分けることができ、多くの場合、scikit-learnのプリプロセッシングモジュールのようなライブラリや、自動フィーチャーエンジニアリングのための専用ツールを使って管理される。

  • フィーチャー・クリエーション:既存のフィーチャーから新しいフィーチャーを作成する。例えば、小売業のデータセットでは、「購入日」から「顧客来店日」を引いて、「顧客ロイヤリティ期間」フィーチャーを作成することができる。時系列分析では、タイムスタンプから移動平均や季節性などの特徴を導き出すことができる。
  • 変換:生データは、機械学習アルゴリズムの前提を満たすために変換する必要があることが多い。これには、数値特徴のスケーリング、歪んだデータを扱うための対数変換の適用、数値をカテゴリーにグループ化するビニングのようなテクニックの使用などが含まれる。
  • エンコード:多くのMLモデルはカテゴリーデータを直接扱うことができない。エンコードには、テキストベースのカテゴリーを数値表現に変換することが含まれる。一般的な方法には、各カテゴリ値が新しいバイナリ列に変換されるワンホット・エンコーディングや、ラベル・エンコーディングがあります。
  • 特徴の選択:すべての特徴が有用とは限らない。中には冗長な特徴や無関係な特徴もあり、オーバーフィッティングにつながるノイズを引き起こす可能性がある。特徴選択は、モデルのパフォーマンスを向上させ、計算コストを削減するために、最も関連性の高い特徴のサブセットを選択することを目的としています。

## 実世界での応用

フィーチャーエンジニアリングのインパクトは、多くの業界において明らかである。その有効性は、多くの場合、予測シグナルを真に捉える特徴を作成するための深いドメイン知識にかかっている。

  1. 信用スコアリング:金融業界では、生の顧客データには収入、年齢、ローン履歴などが含まれる。機能エンジニアは、「負債対収入比率」(総負債を総収入で割ったもの)や「クレジット利用率」(クレジットカード残高をクレジット限度額で割ったもの)のような新しい変数を作成するかもしれない。このような機能により、生の数字だけよりも、その人の財務的健全性をより明確に示すことができ、より正確な信用リスク・モデルにつながります。
  2. 予知保全: 製造業では、機械のセンサーが振動、温度、回転速度などの膨大な生データを生成する。故障を予測するために、エンジニアは、"過去24時間の温度のローリング平均 "や "振動の標準偏差 "のような特徴を作成するかもしれません。これらの機能は、機械的な故障に先行する微妙な劣化パターンを明らかにし、予防的なメンテナンスを可能にし、コストのかかるダウンタイムを防ぐことができる。

#フィーチャーエンジニアリングと関連概念

特徴工学をAIやデータサイエンスの関連用語と区別することは重要である。

  • フィーチャーエンジニアリングとフィーチャーエクストラクションの比較フィーチャーエンジニアリングは、直感と専門知識に基づいて新しいフィーチャーを作成する、主に手作業のプロセスである。特徴抽出は通常、データを縮小された特徴セットに変換する自動化されたプロセスである。ディープラーニングでは畳み込みニューラルネットワーク(CNN)のようなモデルが自動的に特徴抽出を行い、生のピクセルデータから階層的な特徴(エッジ、テクスチャ、形状)を人間の介入なしに学習する。
  • 特徴工学とエンベッディングの比較エンベッディングは、NLPやコンピュータビジョンで一般的な、洗練された学習型の特徴表現です。手作業で特徴量を作成する代わりに、モデルは(単語や画像のような)アイテムの意味的な意味をキャプチャする密なベクトルを学習します。したがって、エンベッディングは自動化された特徴学習の結果であり、手作業ではありません。
  • フィーチャーエンジニアリングとデータ前処理の比較:データ前処理は、フィーチャーエンジニアリングを重要なステップの一つとして含む、より広いカテゴリーである。また、データクリーニング(欠損値や外れ値の処理)やトレーニング用データセットの準備など、その他の重要なタスクも含まれる。

Ultralytics YOLOモデルのような最新のアーキテクチャは、オブジェクト検出や インスタンス分割のような画像ベースのタスクの特徴抽出を自動化しますが、特徴工学の原理は依然として基本的なものです。データを効果的に表現する方法を理解することは、モデルのデバッグ、データ品質の向上、視覚データと構造化データの組み合わせを含む複雑な問題に取り組む上で非常に重要です。Ultralytics HUBのようなプラットフォームは、データセットの準備からモデルのデプロイまで、このライフサイクル全体を管理するツールを提供します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク