YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

データクリーニング

AIおよびMLプロジェクト向けに、データクリーニングをマスターしましょう。エラーを修正し、データ品質を高め、モデルのパフォーマンスを効果的に向上させるためのテクニックを学びます。

データクリーニングとは、データセットから破損、不正確、不完全、または矛盾したデータを特定し、修正または削除するプロセスです。これは、機械学習(ML)ワークフローにおける重要な最初のステップであり、トレーニングデータの品質が、結果として得られるモデルのパフォーマンスと信頼性を直接決定するためです。「garbage in, garbage out(ゴミを入れるとゴミが出てくる)」の原則に従い、データクリーニングは、Ultralytics YOLOのようなモデルが正確で一貫性のある情報に基づいてトレーニングされることを保証し、より優れた精度とより信頼できる予測につながります。適切なクリーニングを行わないと、データ内の根本的な問題が偏った結果と不十分なモデルの一般化につながる可能性があります。

主要なデータクリーニングタスク

データをクリーニングするプロセスには、さまざまな種類のデータ品質の問題を解決するために設計された、いくつかの異なるタスクが含まれます。これらのタスクは多くの場合反復的であり、ドメイン固有の知識が必要になる場合があります。

  • 欠損値の処理: データセットには欠損エントリが含まれていることがよくあります。これは、不完全なレコードを削除するか、平均、中央値、またはより高度な予測モデルなどの統計的方法を使用して欠損値を補完(埋める)することで対処できます。欠損値の処理に関するガイドは、さらに詳しい情報を提供できます。
  • 不正確なデータの修正: これには、誤字脱字、測定単位の不整合(例:lbsとkg)、および事実上誤った情報の修正が含まれます。データ検証ルールは、これらのエラーを検出するためによく適用されます。
  • 重複の削除: 重複レコードは、特定のデータポイントに過度の重みを与えることにより、モデルにバイアスをもたらす可能性があります。これらの冗長なエントリを識別して削除することは、標準的なステップです。
  • 外れ値の管理:外れ値とは、他の観測値から大きく逸脱するデータポイントです。その原因に応じて、モデルトレーニングプロセスに悪影響を与えないように、削除、修正、または変換される場合があります。外れ値検出技術は、この目的で広く使用されています。
  • データの標準化: これには、データが一貫した形式に準拠するようにすることが含まれます。例としては、日付形式、テキストの大小文字(例:すべてのテキストを小文字に変換)、および単位変換の標準化などがあります。一貫したデータ品質基準は、成功に不可欠です。

現実世界のAI/MLアプリケーション

  1. 医用画像解析脳腫瘍データセットのようなデータセットで物体検出モデルをトレーニングする場合、データクリーニングが不可欠です。このプロセスには、破損した画像ファイルや低品質の画像ファイルの削除、すべての画像を一貫した解像度と形式に標準化、および患者のラベルとアノテーションが正しいことの確認が含まれます。これにより、モデルは明確で信頼性の高い情報から学習することが保証され、医療におけるAIで信頼できる診断ツールを開発するために不可欠です。米国国立生物医学イメージング・バイオエンジニアリング研究所(NIBIB)は、医学研究における高品質データの重要性を強調しています。
  2. 小売在庫管理のためのAI: AI主導の小売では、コンピュータビジョンモデルがカメラフィードを使用して棚の在庫を監視します。ぼやけた画像をフィルタリングしたり、買い物客によって製品が隠されているフレームを削除したり、複数のカメラアングルからの製品数を重複排除したりするには、データクレンジングが必要です。これらの問題を修正することで、在庫システムが在庫レベルの正確なビューを持ち、よりスマートな補充が可能になり、無駄が削減されます。Google Cloudのような企業は、データ品質が最も重要な分析ソリューションを提供しています。

データクリーニング vs. 関連概念

データクレンジングを、関連するデータ準備ステップと区別することが重要です。

  • データ前処理: これは、データクリーニングを含むより広範な用語ですが、正規化(数値特徴のスケーリング)、カテゴリ変数のエンコード、および特徴抽出など、MLモデルのためにデータを準備するための他の変換も含まれます。クリーニングはエラーの修正に焦点を当てる一方、前処理はアルゴリズムのためにデータをフォーマットすることに焦点を当てています。詳細については、アノテーション付きデータの前処理に関するUltralyticsガイドを参照してください。
  • データラベリング: これは、教師あり学習のために、画像内のオブジェクトの周囲にバウンディングボックスを描画するなど、生のデータに有益なタグまたはアノテーション(ラベル)を追加するプロセスです。データクリーニングには、品質チェック中に特定された不正確なラベルの修正が含まれる場合がありますが、ラベリングの最初の行為とは異なります。データ収集とアノテーションに関するガイドに、ラベリングに関する洞察が記載されています。
  • データ拡張: この手法は、既存のデータの修正コピーを作成することにより(例えば、画像の回転、明るさの変更)、トレーニングデータセットのサイズと多様性を人工的に増加させます。データ拡張は、モデルの汎化性能とロバスト性を向上させることを目的としていますが、データクリーニングは、元のデータの品質を向上させることに焦点を当てています。データ拡張の究極のガイドで詳細をご覧ください。

データクリーニングは、基盤となるデータが健全であることを保証することにより、AIシステムの信頼性とパフォーマンスを大幅に向上させる、基礎的で反復的な作業です。Pandasライブラリのようなツールは、PythonベースのMLワークフローにおけるデータ操作およびクリーニングタスクによく使用されます。厳密なクリーニングを通じてデータ品質を確保することは、特に複雑なコンピュータビジョン(CV)タスクや、COCOImageNetのような大規模なベンチマークデータセットを扱う場合に、信頼できるAIを開発するために不可欠です。Ultralytics HUBのようなプラットフォームは、プロジェクトのライフサイクル全体を通して高品質なデータセットを管理および維持するのに役立ちます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました