YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

データ前処理

機械学習のためのデータ前処理をマスターしましょう。モデルの精度とパフォーマンスを向上させるために、クリーニング、スケーリング、エンコーディングなどのテクニックを学びます。

データの前処理は、機械学習(ML)パイプラインにおける重要なステップであり、生データをクレンジング、変換、および整理して、モデルのトレーニングと構築に適したものにします。現実世界の生データは、不完全で矛盾していることが多く、エラーが含まれている可能性があります。前処理は、この雑然としたデータをクリーンで構造化された形式に変換し、モデルが効果的に学習するために不可欠です。モデルの予測の品質は、トレーニングに使用されるデータの品質に大きく依存するため、データの前処理は、AIシステムで高い精度と信頼性の高いパフォーマンスを実現するための基本的なプラクティスとなります。

データ前処理における主要タスク

データの前処理は、データを準備するためのさまざまな技術を包含する広範な用語です。具体的な手順は、データセットとMLタスクによって異なりますが、一般的なタスクには以下が含まれます。

  • データクリーニング: これは、データセットからエラー、不整合、および欠損値を特定し、修正または削除するプロセスです。これには、統計的手法を使用して欠損データを補完したり、重複エントリを削除したりすることが含まれます。クリーンなデータは、信頼できるモデルの基礎です。
  • データ変換: これは、データのスケールまたは分布を変更することを含みます。一般的な手法は、数値特徴を標準範囲(0〜1など)にスケーリングして、スケールが大きい特徴が学習プロセスを支配するのを防ぐ正規化です。さまざまなスケーリング方法の詳細については、scikit-learnの前処理ドキュメントを参照してください。
  • 特徴量エンジニアリング: これは、モデルのパフォーマンスを向上させるために、既存の特徴量から新しい特徴量を作成する創造的なプロセスです。これには、特徴量の結合、分解、またはドメイン知識を使用してより意味のある情報を抽出することが含まれます。関連する概念として特徴量抽出があり、これはデータの次元を自動的に削減します。
  • カテゴリカルデータのエンコーディング: 多くのMLアルゴリズムは数値入力を必要とします。前処理では、多くの場合、カテゴリカルデータ(テキストラベルなど)を、ワンホットエンコーディングなどの手法を通じて数値形式に変換します。
  • Resizing and Augmentation: コンピュータビジョン (CV)では、前処理として画像を均一なサイズに変更することがあります。その後、データ拡張を行うことも可能です。データ拡張とは、画像の修正版を作成することでデータセットを人工的に拡張することです。

現実世界のAI/MLアプリケーション

データの前処理は、すべてのAI分野に共通して必要な要件です。その適用は、単純なタスクと複雑なタスクの両方で成功するために不可欠です。

  1. 医療画像解析: YOLOモデルを脳腫瘍データセットのようなデータセットからMRIスキャンで腫瘍を検出するように学習させる前に、画像を前処理する必要があります。これには、スキャン機器の違いを考慮してピクセル強度値を正規化し、モデルのバックボーンに必要な一貫した入力サイズにすべての画像をリサイズし、破損したファイルや誤ったラベルの例を削除するためにデータセットをクリーニングすることが含まれます。これにより、畳み込みニューラルネットワーク(CNN)は、イメージングのバリエーションではなく、モデルの真の病理学的特徴を学習することが保証されます。YOLOを使った腫瘍検出に関するブログで、これについて詳しく見ることができます。
  2. AIを活用した小売予測: 小売における顧客の需要を予測するモデルの場合、生の販売データには、トランザクションレコードの欠落、製品名の不整合、および大幅に異なるスケール(例:「アイテム価格」対「販売されたアイテム数」)のフィーチャが含まれていることがよくあります。ここでの前処理には、欠落している販売数値の補完、製品名の標準化、および数値フィーチャの正規化が含まれており、予測モデリングアルゴリズムが各要素の重要度を効果的に評価できるようにします。ビジネス向けの前処理の概要では、これらの手順が強調されています。

データ前処理と関連概念の比較

データの前処理を、他の関連するデータ管理用語と区別すると役立ちます。

  • データクリーニング: 前述の通り、データクリーニングはデータ前処理のサブセットです。前処理がモデルのためにデータを準備するプロセス全体であるのに対し、クリーニングは、生データセット内のエラーの修正、欠損値の処理、および不整合の除去に特に焦点を当てています。
  • データ拡張: データ拡張は、トレーニングデータのサイズを人工的に増加させるために使用されるテクニックです。これはトレーニングのためにデータを準備する一部ですが、通常、元のデータセットでクリーニングやサイズ変更のような初期の前処理ステップが完了した後に適用されます。拡張の目標はモデルの汎化性能を向上させることであり、前処理は元のデータを使用可能にすることを目指します。
  • データ分析: データ分析は、結論を引き出し、意思決定を支援するためにデータセットを調べることを含む、はるかに広い分野です。データ前処理は、データ分析ワークフローの基礎となる最初のステップであり、探索的データ分析(EDA)、モデリング、データ可視化も含まれます。

Ultralytics HUBのようなプラットフォームは、データセットの管理や、データの準備からモデルのデプロイまで、機械学習のライフサイクル全体を効率化するのに役立ちます。アノテーションされたデータの前処理に関するガイドでは、さらに実践的な洞察が得られます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました