用語集

特徴量エンジニアリング

専門家による特徴量エンジニアリングで機械学習の精度を向上させましょう。影響力のある特徴を作成、変換、選択するためのテクニックを学びます。

フィーチャー・エンジニアリングとは、生データを予測モデルにとってより効果的な情報属性に変換するために、ドメイン知識を活用する技術と科学である。に変換する技術と科学である。機械学習機械学習（ML）の広い範囲では、生データがすぐに処理できる状態にあることは稀である。ノイズや欠損値、アルゴリズムが直接解釈できないフォーマットを含むことが多い。を直接解釈することはできない。新しいフィーチャーを作成したり、既存のフィーチャーを修正したりすることで、エンジニアはモデルの精度とパフォーマンスを大幅に向上させることができる。モデルの精度とパフォーマンスを大幅に向上させることができる。より複雑なアルゴリズムに単純に移行するよりも、良い結果が得られることが多い。このプロセスは、収集された生の情報と、アルゴリズムに必要な数学的表現との間のギャップを埋めるものである。と予測モデリングに必要な数学的表現とのギャップを埋める予測モデリング

フィーチャーエンジニアリングのコア技術

このプロセスは通常、データ中の最も関連性の高いシグナルを明らかにするために設計された、いくつかの反復的なステップを含む。一方 Python Pandas ライブラリのようなツールはこのような操作を容易にするが、この戦略は特定の問題領域を理解することに大きく依存する。この戦略は、特定の問題領域の理解に大きく依存している。

インプットとクリーニング：新しい特徴量を作成する前に、データを安定化させる必要がある。これには欠損値の処理データ・クリーニング技術によって欠損値を処理する。平均値、中央値、または予測値でギャップを埋める。と呼ばれるプロセスです。
変換とスケーリング：多くのアルゴリズムは、入力変数のスケールが大きく異なるとパフォーマンスが低下する。多くのアルゴリズムは、入力変数のスケールが次のようなテクニックがある。正規化（データを0から1の範囲にスケーリングする）または標準化（平均値を中心にデータをセンタリングする）のような技法は、単一の特徴が純粋に大きさによって学習プロセスを支配することがないようにする。を支配しないようにする。
カテゴリーデータのエンコード：モデルは一般的に数値入力を必要とする。フィーチャーエンジニアリングにはテキストラベルまたはカテゴリデータを数値に変換する。一般的な方法には、ラベル・エンコーディングとワンホットエンコーディングがある。
フィーチャー構築：これは新しい変数が導き出される創造的な側面である。例えば例えば不動産データセットでは、「長さ」と「幅」を別々に使う代わりに、エンジニアはそれらを掛け合わせを掛け合わせ、価格とより強く相関する「平方フィート」フィーチャーを作成する。
特徴の選択：特徴を増やしすぎるとモデルがノイズを記憶してしまう。再帰的特徴除去や次元削減のようなテクニックは最も影響力のある属性のみを特定し、保持することができます。

コンピュータビジョンにおける特徴工学

コンピュータビジョン(CV)の分野では、特徴工学はしばしば次のような形をとる。エンジニアリングはしばしばという形で行われることが多い。最新のディープラーニングモデルは階層とパターンを自動的に学習するが、我々は異なる環境条件をシミュレートすることで、よりロバストになるように学習データを「エンジニアリング」することができる。異なる環境条件をシミュレートすることでハイパーパラメーターのチューニング設定をハイパーパラメータのチューニング設定を変更することで幾何学的な変換を含むようにハイパーパラメータチューニング構成を変更することで、モデルが向きや遠近感に不変な特徴を学習できるようになる。

以下のコード・スニペットは、"Augmentation-based Feature Engineering"（オーグメンテーション・ベースのフィーチャー・エンジニアリング）の学習中に、どのように適用するかを示している。 YOLO11 のモデルです。などの引数を調整することで degrees そして shearそこで、元のデータセットから新しい特徴バリエーションを合成する。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentation hyperparameters acting as on-the-fly feature engineering
# 'degrees' rotates images +/- 10 deg, 'shear' changes perspective
model.train(data="coco8.yaml", epochs=3, degrees=10.0, shear=2.5)

実際のアプリケーション

フィーチャー・エンジニアリングの価値は、さまざまな産業での実践的な応用を通じて最もよく理解できる。

金融リスク評価：金融部門では、生の取引ログは信用力を評価するには不十分である。信用度を評価するには不十分である。専門家は金融におけるAI を使用して、「負債対収入」や「信用利用率」などの比率を構築している。これらの工学的は、財務の健全性を示す直接的なシグナルを提供する。信用リスクのモデリングが可能になる。より正確な信用リスク・モデリングを可能にする。
製造業における予知保全：製造業におけるAI 製造業におけるAIでは、センサーが振動や温度などの高頻度データを収集します。センサーの生測定値をモデルに直接入力することは、ノイズが多く効果的ではありません。で効果がありません。その代わりに、エンジニアは時系列分析を使って "過去1時間のローリング平均温度 "や "振動の標準偏差 "のような機能を作成します。これらの集計された特徴は、機械の摩耗を示す傾向や異常を、瞬時の値よりもはるかによく捉えることができる。値です。

特徴量エンジニアリング

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

フィーチャーエンジニアリングのコア技術

コンピュータビジョンにおける特徴工学

実際のアプリケーション

関連用語との区別

このカテゴリの関連記事

人間が関与するループ内アノテーションが重要な理由を理解する

データセット蒸留とは何か？簡単な概要

オークリーメタAIグラスは、ビジョンAIでアイウェアの概念を再定義する

Ultralytics コミュニティに参加する

特徴量エンジニアリング

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

フィーチャーエンジニアリングのコア技術

コンピュータビジョンにおける特徴工学

実際のアプリケーション

関連用語との区別

このカテゴリの関連記事

人間が関与するループ内アノテーションが重要な理由を理解する

データセット蒸留とは何か？ 簡単な概要

オークリー メタAIグラスは、ビジョンAIでアイウェアの概念を再定義する

Ultralytics コミュニティに参加する

データセット蒸留とは何か？簡単な概要

オークリーメタAIグラスは、ビジョンAIでアイウェアの概念を再定義する