YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

データクリーニング

AIモデルの精度を向上させるためのデータクリーニングを習得しましょう。エラーの除去、欠損値の処理、そしてUltralytics YOLO26向けにクリーンなデータセットを準備するためのテクニックを学びます。

データクレンジングは、レコードセット、テーブル、またはデータベースから、破損した、不正確な、または無関係なレコードを検出して修正(または削除)する重要なプロセスです。人工知能 (AI)および機械学習 (ML)の分野では、このステップはワークフローの中で最も時間がかかりますが、不可欠な部分であるとよく考えられています。YOLO26のようなモデルがオブジェクトを効果的に認識できるようになる前に、「Garbage In, Garbage Out」(質の悪い入力が信頼できない出力につながる現象)を防ぐために、トレーニングデータからエラーが除去されている必要があります。

AIにおけるデータ整合性の重要性

高性能なコンピュータービジョンモデルは、利用するデータセットの品質に大きく依存します。データセットに誤ってラベル付けされた画像、重複、または破損したファイルが含まれている場合、モデルはパターンを一般化するのに苦労し、過学習や低い推論精度につながります。効果的なデータクリーニングは、予測モデルの信頼性を向上させ、アルゴリズムがノイズではなく有効な信号から学習することを保証します。

一般的なデータクリーニング技術

実践者は、表形式データにはPandasのようなツール、または専門のビジョンツールを使用して、データセットを洗練させるための様々な戦略を採用しています。

  • 欠損値の処理: これは、欠損データを含むレコードを削除するか、統計的平均や最近傍に基づいてギャップを埋めるために補完技術を使用することを含みます。
  • 重複の削除: トレーニングセット内の重複画像は、意図せずモデルに偏りを与える可能性があります。これらを削除することで、モデルが特定の例を記憶するのを防ぎ、データセットの偏りを軽減するのに役立ちます。
  • 外れ値detect: 規範から大きく逸脱する異常または外れ値を特定し、処理することは、これらが統計分析やモデルの重みを歪める可能性があるため、非常に重要です。
  • 構造的修復: これには、クラスの一貫性を確保するために、クラスラベルのタイプミス(例:「Car」と「car」の修正)を修正することが含まれます。

実際のアプリケーション

データクレンジングは、AIが展開されている様々な産業において極めて重要です。

  • 医療画像解析: ヘルスケアAIアプリケーションでは、データセットにアーティファクト、不正確な患者メタデータ、または無関係なバックグラウンドノイズを含むスキャンが含まれることがよくあります。このデータをクリーンアップすることで、医療画像解析モデルが診断に関連する生物学的マーカーのみに焦点を当てることを保証します。
  • 小売在庫管理: 小売AIの場合、製品データセットには廃止されたアイテムや不正確な縦横比の画像が含まれている可能性があります。これらのデータセットをクリーンアップすることで、オブジェクト検出モデルが在庫レベルを正確に識別し、ライブ環境での誤検知を減らすことができます。

データクレンジングと前処理の区別

しばしば interchangeably に使われますが、データクリーニングはデータ前処理とは異なります。データクリーニングはエラーの修正と「不良」データの削除に焦点を当てます。対照的に、前処理はクリーンなデータを画像リサイズ、正規化、または多様性を増やすためのデータ拡張の適用など、モデルに適した形式に変換することを含みます。

品質チェックの自動化

Ultralytics Platformで利用できるような現代のワークフローは、トレーニング開始前に、破損した画像やラベルの不整合を特定するための自動チェックを統合しています。以下に、標準のPillow libraryを使用して破損した画像ファイルをチェックし特定する方法を示す簡単なPythonの例を示します。これはYOLO26のようなモデルにデータを供給する前の一般的なステップです。

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。