Yolo 深圳
深セン
今すぐ参加
用語集

データクリーニング

マスターデータのクリーニングを習得し、AIモデルの精度を向上させましょう。エラーの除去、欠損値の処理、Ultralytics YOLO26向けのクリーンなデータセットの準備手法を学びます。

データクリーニングとは、レコードセット、テーブル、またはデータベースから、破損した、不正確な、または無関係なレコードを検出し修正(または削除)する重要なプロセスである。人工知能(AI) と機械学習(ML)の分野では、このステップはワークフローの中で最も時間がかかるが不可欠な部分と見なされることが多い。YOLO26のようなモデルが効果的に物体認識を学習する前に、 「Garbage In, Garbage Out」現象(質の悪い入力が信頼性の低い出力につながる現象)を防ぐため、 トレーニングデータからエラーを除去する必要があります。

AIにおけるデータ完全性の重要性

高性能なコンピュータビジョンモデルは、 消費するデータセットの品質に大きく依存する。 データセットに誤ラベル画像、重複、破損ファイルが含まれる場合、 モデルはパターンの一般化に苦戦し、 過学習や 低い推論精度を招く。 効果的なデータクリーニングは予測モデルの信頼性を向上させ、 アルゴリズムがノイズではなく有効な信号から学習することを保証する。

一般的なデータクリーニング手法

実践者は、以下のようなツールを用いてデータセットを洗練させるために様々な戦略を採用する Pandas などのツールや、専用の画像処理ツールを用いてデータセットを精緻化するために様々な戦略を採用しています。

  • 欠損値の取り扱い:欠損データを含むレコードを削除するか、統計的平均値や最近傍法に基づく補完技術を用いて欠損部分を埋める手法が用いられる。
  • 重複画像の除去:トレーニングセット内の重複画像は、意図せずモデルにバイアスをもたらす可能性があります。これらを除去することで、モデルが特定の例を記憶しないようにし、データセットのバイアスを軽減するのに役立ちます。
  • 外れ値検出: 標準から著しく逸脱する 異常値 または外れ値を特定し処理することは、 これらが統計分析やモデル重みを歪める可能性があるため極めて重要である。
  • 構造的修正:これにはクラスラベルの誤字修正(例:「Car」と「car」の修正)が含まれ、クラスの一貫性を確保します

実際のアプリケーション

データクリーニングは、AIが導入されている様々な業界において極めて重要である。

  • 医療画像解析医療AIアプリケーションでは、データセットに アーチファクトを含むスキャン、誤った患者メタデータ、 または無関係な背景ノイズが含まれることが頻繁にある。 このデータをクリーニングすることで、 医療画像解析モデルが診断に関連する生物学的マーカーのみに 焦点を当てられるようになる。
  • 小売在庫管理小売分野におけるAIでは、製品データセットに 陳腐化した商品やアスペクト比が不正確な画像が含まれる場合があります。 これらのデータセットをクリーニングすることで、 物体検出モデルが正確に在庫レベルを識別し、 実稼働環境における誤検知を低減できます。

データクリーニングと前処理の区別

データクリーニングとデータ前処理はしばしば混同されるが、これらは異なる概念である。データクリーニングはエラーの修正や「不良」データの除去に焦点を当てる。一方、前処理はクリーンなデータをモデルに適した形式に変換する作業であり、具体的には画像のリサイズ、正規化、または多様性を高めるためのデータ拡張の適用などが含まれる。

品質チェックの自動化

Ultralytics 利用可能な現代的なワークフローでは、 トレーニング開始前に画像の破損やラベルの不整合を特定する自動チェック機能が統合されています。以下は、 YOLO26のようなモデルにデータを投入する前の一般的な手順として、標準的なPillowライブラリを用いて 破損した画像ファイルをチェック・特定する方法を示すPython 。

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加