AIにおけるデータセットのバイアスを特定して軽減し、現実世界のアプリケーション向けに、公平で正確かつ信頼性の高い機械学習モデルを確保する方法を学びます。
データセット・バイアスとは、機械学習(ML)モデルの学習に使われる情報の系統的な誤りや不均衡を指す。 その結果 データセット・バイアスとは、機械学習(ML)モデルの学習に使用される情報の系統的な誤りや不均衡のことです。コンピュータビジョン コンピュータ・ビジョン(CV)の文脈では、モデルは学習データのみに基づいて パターンを学習する。もし この基礎が歪んでいる場合、例えば特定の人口統計や環境条件を過剰に反映することで、モデルはその盲点を「継承」することになる。 モデルはこれらの盲点を「受け継ぐ」ことになる。この現象は汎化不良の主な原因である。 この現象は、汎化がうまくいかない主な原因である。 この現象は汎化がうまくいかない主な原因である。
偏見がどこから生じているかを理解することが、防止への第一歩である。バイアスは、多くの場合、次のような初期の段階で忍び寄る。 バイアスは データ収集と注釈 プロセスに忍び込むことが多い:
データセットの偏りがもたらす結果は、些細な不都合から、大きなリスクを伴う産業における重大な安全上の失敗まで、多岐にわたる。 にまで及ぶ。
よく一緒に議論されるが、データセットのバイアスとアルゴリズムのバイアスを区別することは有益である。 アルゴリズムのバイアス
どちらもAIにおける偏見という広範な問題の一因であり、それらに対処することはAI倫理の中心である。 AI倫理とAIにおける公正さにとって中心的な問題である。 AIにおける公平性の中心である。
開発者は、バイアスを特定し、軽減するためにいくつかのテクニックを採用することができる。合成データ 合成データを利用することで、実世界のデータが不足しているギャップを埋めることができる。 を埋めるのに役立つ。さらに、厳密な モデル評価 (世界平均ではなく)サブグループ別にパフォーマンスを分解する厳密なモデル評価は、隠れた欠陥を明らかにすることができる。
もうひとつの強力な方法は、データの増強である。人為的にトレーニング画像を変更する。 人為的にトレーニング画像を変更することで、色、回転、照明などを変更することができる。 を学習させることができる。
次の例は、トレーニング中にオーグメンテーションを適用する方法を示している。 Ultralytics YOLO11を使用したトレーニング中に、物体 バイアスの軽減に役立ちます:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
データセットの品質を積極的に管理し ハイパーパラメータのようなツールを使うことで、エンジニアは 責任あるAI システムを構築することができる。公平性の測定基準についてさらに読むには、次のようなリソースがあります。 IBMのAI Fairness 360のようなリソースは、優れたオープンソース ツールキットを提供している。


