Explore how dataset bias impacts AI accuracy and fairness. Learn to identify data skew and use the [Ultralytics Platform](https://platform.ultralytics.com) to mitigate risks.
データセットバイアスは、機械学習(ML)モデルの学習に使用される情報に体系的な誤りや歪んだ分布が含まれる場合に発生し、その結果としてAIシステムが特定の結果を他よりも優先するようになります。 モデルはパターン認識エンジンとして機能するため、入力データに完全に依存する。 訓練データが現実世界の環境の多様性を正確に反映していない場合、モデルはこれらの盲点を継承する。 この現象はしばしば汎化性能の低下を引き起こし、AIはテスト時には高スコアを達成しても、 多様または予期せぬシナリオでのリアルタイム推論に投入されると著しく失敗する。
バイアスは開発ライフサイクルの複数の段階でデータセットに浸透する可能性があり、収集やアノテーション過程における人間の判断に起因することが多い。
データセットのバイアスの影響は様々な産業で顕著であり、特に自動化されたシステムが重大な意思決定を行う場合や物理世界と相互作用する場合に顕著である。
In the automotive industry, AI in automotive relies on cameras to identify pedestrians and obstacles. If a self-driving car is trained primarily on data collected in sunny, dry climates, it may exhibit performance degradation when operating in snow or heavy rain. This is a classic example of the training distribution failing to match the operational distribution, leading to safety risks.
同様に、医療画像解析においても、 診断モデルは往々にして過去の患者データで訓練される。detect モデルが 明るい肌色主体で構成されたデータセットで訓練された場合、 肌の色が濃い患者の診断において著しく低い精度を示す可能性がある。 この問題に対処するには、あらゆる人口統計学的グループにおいてAIの公平性を保証する 多様なデータセットを構築するための協調的な取り組みが必要である。
開発者は厳格な監査と高度なトレーニング戦略を採用することで、データセットのバイアスを低減できる。データ拡張などの手法は、 過小評価されている例(例:反転、回転、明るさの調整)の人工的なバリエーションを作成することで、 データセットのバランスを調整するのに役立つ。 さらに、合成データの生成は、 実世界のデータが不足しているか収集が困難な場合のギャップを埋めることができる。
これらのデータセットを効果的に管理することは極めて重要です。 Ultralytics 、チームはクラス分布を可視化し、 トレーニング開始前に不均衡を特定できます。さらに、 NIST AIリスク管理フレームワークなどのガイドラインに従うことで、 組織はこれらのリスクを体系的に特定・軽減するアプローチを構築できます。
データセットのバイアスを類似用語と区別することは、誤りの発生源を理解する上で有用である:
以下の例は、YOLO26を用いたトレーニング中にデータ拡張を適用する方法を示しています。幾何学的拡張を増やすことで、モデルはより優れた一般化能力を学習し、トレーニングセットに見られる特定の物体の向きや位置に対するバイアスを低減する可能性があります。
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)