用語集

データクリーニング

AIやMLプロジェクトのためのデータクリーニングをマスターしよう。エラーを修正し、データ品質を向上させ、モデルのパフォーマンスを効果的に高めるテクニックを学びます!

データクリーニングは、データセットから破損、不正確、不完全、または一貫性のないデータを特定し、修正または削除するプロセスです。機械学習(ML)のワークフローでは、学習データの品質が、結果として得られるモデルの性能と信頼性を直接決定するため、データクリーニングは非常に重要な最初のステップです。ガベージ・イン、ガベージ・アウト」の原則に従い、データクリーニングを行うことで、Ultralytics YOLOのようなモデルが正確で一貫性のある情報を基に学習され、より精度の高い信頼性の高い予測につながります。適切なクリーニングを行わないと、データの根本的な問題によって結果が歪んだり、モデルの一般化がうまくいかなくなったりする可能性があります。

主なデータ・クリーニング作業

データクリーニングのプロセスには、さまざまなタイプのデータ品質問題を解決するために設計された、いくつかの異なるタスクが含まれる。これらの作業は繰り返し行われることが多く、分野特有の知識が必要になることもある。

  • 欠損値の処理:データセットには欠損項目が含まれることがよくありますが、不完全なレコードを削除するか、平均値、中央値、またはより高度な予測モデルのような統計的手法を用いて欠損値をインプット(補填)することで対処できます。欠損値の取り扱いに関するガイドは、さらなる洞察を提供します。
  • 不正確なデータの修正:これには、誤字脱字、測定の不一致(例:lbs対kg)、事実と異なる情報の修正が含まれる。これらのエラーにフラグを立てるために、データ検証ルールが適用されることが多い。
  • 重複の削除:重複レコードは、特定のデータポイントに過度の重みを与えることによって、モデルにバイアスをもたらす可能性がある。このような冗長なエントリを識別して削除することは、標準的なステップである。
  • 外れ値の管理:外れ値とは、他のオブザベーションから大きく逸脱したデータ・ポイントです。その原因によっては、モデルのトレーニング・プロセスに悪影響を与えないように、除去、修正、または変換されるかもしれません。このために外れ値検出技術が広く使われています。
  • データの標準化:これは、データが一貫したフォーマットに適合するようにすることである。例えば、日付フォーマットの標準化、テキストの大文字小文字の区別(例:すべてのテキストを小文字に変換)、単位の変換などが含まれる。一貫したデータ品質基準は、成功のために極めて重要である。

実際のAI/MLアプリケーション

  1. 医療画像解析脳腫瘍データセットのようなデータセットで物体検出モデルをトレーニングする場合、データのクリーニングが不可欠である。このプロセスでは、破損した画像ファイルや低画質の画像ファイルを削除し、すべての画像を一貫した解像度とフォーマットに標準化し、患者のラベルと注釈が正しいことを確認する。これにより、モデルが明確で信頼できる情報から学習することが保証され、これはヘルスケアにおけるAIで信頼できる診断ツールを開発するために不可欠である。National Institute of Biomedical Imaging and Bioengineering (NIBIB)は、医学研究における質の高いデータの重要性を強調している。
  2. 小売在庫管理のためのAIAIを活用した小売業では、コンピュータ・ビジョン・モデルがカメラ・フィードを使って棚の在庫を監視する。不鮮明な画像をフィルタリングし、商品が買い物客に隠されているフレームを削除し、複数のカメラアングルから商品数の重複を削除するには、データクリーニングが必要です。これらの問題を修正することで、在庫システムは在庫レベルを正確に把握できるようになり、よりスマートな補充が可能になり、無駄が削減される。Google Cloudのような企業は、データ品質が最も重要な分析ソリューションを提供しています。

データクリーニングと関連概念

データクリーニングは、関連するデータ準備ステップと区別することが重要である:

  • データ前処理:これはデータのクリーニングを含むより広い用語であるが、正規化(数値特徴のスケーリング)、カテゴリー変数のエンコーディング、特徴抽出など、MLモデル用にデータを準備するための他の変換も含まれる。クリーニングがエラーの修正に重点を置くのに対し、前処理はアルゴリズム用にデータをフォーマットすることに重点を置く。詳細については、Ultralyticsのアノテーションデータの前処理に関するガイドを参照してください。
  • データラベリング:これは生データに情報タグや注釈(ラベル)を追加するプロセスであり、例えば教師あり学習では画像のオブジェクトの周りにバウンディングボックスを描く。データのクリーニングは、品質チェックで特定された誤ったラベルを修正することを含むかもしれませんが、ラベリングの最初の行為とは異なります。Data Collection and Annotation(データ収集とアノテーション)ガイドは、ラベリングに関する洞察を提供します。
  • データ拡張:この手法は、既存のデータを修正したコピー(画像を回転させる、明るさを変えるなど)を作成することで、学習データセットのサイズと多様性を人工的に増加させる。データ増強はモデルの汎化性と頑健性を向上させることを目的としており、データクリーニングは元データの品質を向上させることに重点を置いています。詳しくは「データ増強の究極ガイド」をご覧ください。

データクリーニングは、基礎となるデータの健全性を確保することで、AIシステムの信頼性とパフォーマンスを大幅に向上させる、基礎的で、しばしば反復的なプラクティスです。Pandasライブラリのようなツールは、PythonベースのMLワークフローにおけるデータ操作やクリーニング作業に一般的に使用されています。特に、複雑なコンピュータビジョン(CV)タスクや、COCOや ImageNetのような大規模なベンチマークデータセットを扱う場合、厳密なクリーニングによってデータの品質を確保することは、信頼できるAIの開発に不可欠です。Ultralytics HUBのようなプラットフォームは、プロジェクトのライフサイクルを通じて、高品質のデータセットを管理・維持するのに役立ちます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク