Yolo 深圳
深セン
今すぐ参加
用語集

データセットのバイアス

AIにおけるデータセットのバイアスを特定して軽減し、現実世界のアプリケーション向けに、公平で正確かつ信頼性の高い機械学習モデルを確保する方法を学びます。

データセット・バイアスとは、機械学習(ML)モデルの学習に使われる情報の系統的な誤りや不均衡を指す。 その結果 データセット・バイアスとは、機械学習(ML)モデルの学習に使用される情報の系統的な誤りや不均衡のことです。コンピュータビジョン コンピュータ・ビジョン(CV)の文脈では、モデルは学習データのみに基づいて パターンを学習する。もし この基礎が歪んでいる場合、例えば特定の人口統計や環境条件を過剰に反映することで、モデルはその盲点を「継承」することになる。 モデルはこれらの盲点を「受け継ぐ」ことになる。この現象は汎化不良の主な原因である。 この現象は、汎化がうまくいかない主な原因である。 この現象は汎化がうまくいかない主な原因である。

データセットバイアスの一般的な原因

偏見がどこから生じているかを理解することが、防止への第一歩である。バイアスは、多くの場合、次のような初期の段階で忍び寄る。 バイアスは データ収集と注釈 プロセスに忍び込むことが多い:

  • 選択バイアス:これは、収集されたデータが対象母集団を無作為に代表していない場合に発生する。 無作為。例えば 顔認識システム用の画像を大学生 例えば、顔認識システムのために大学生からしか画像を収集しないと、年齢分布に偏りが生じ、高齢者ではモデルの性能が低下する。
  • 代表の偏り:たとえデータが広く収集されていたとしても、特定のグループが著しく代表されていない可能性がある。 を下回っている可能性がある。都市計画のベンチマークとなるデータセット のデータセットでは、建築様式が異なるため、アジアやアフリカの大都市のインフラを正確に分析できない可能性がある。 のインフラを正確に分析できないかもしれない。
  • ラベリング・バイアス データのラベリングには人間の偏見が入り込む可能性がある。もし 曖昧さや明確なガイドラインの欠如により、アノテーターが一貫して特定のオブジェクトを誤って分類している場合、モデルはこれらのエラーをグラウンディング・トゥルースとして学習します。 はこれらのエラーをグランドトゥルースとして学習します。

実例とインパクト

データセットの偏りがもたらす結果は、些細な不都合から、大きなリスクを伴う産業における重大な安全上の失敗まで、多岐にわたる。 にまで及ぶ。

  1. 医療診断医療診断 医療におけるAIでは、皮膚がんなどの 皮膚がんなどを検出するために使用される。学習データセットが主に明るい肌色の画像で構成されている場合、モデルの精度は、患者を分析する際に著しく低下する。 の精度は著しく低下する。 モデルの精度は著しく低下する。この格差は、多様な 医療画像解析データセットの重要性を強調しています。 この格差は、医療画像解析データセットの重要性を浮き彫りにしています。
  2. 自律走行:自動運転車は 歩行者や障害物を識別するため に大きく依存している。晴天で乾燥した気候で収集されたデータを主体に学習させたモデルでは、雪や大雨のときに危険をdetect できない可能性がある。 雪や大雨のときに危険を検知できないかもしれない。これは、限定的な環境変動が自律走行車の危険な安全ギャップを生み出す典型的な例である。 自律走行車の安全性格差の典型的な例である。

データセットバイアス vs. アルゴリズムバイアス

よく一緒に議論されるが、データセットのバイアスとアルゴリズムのバイアスを区別することは有益である。 アルゴリズムのバイアス

  • データセット・バイアスはデータ中心であり、インプット(材料)に欠陥があることを意味する。モデルは モデルは完璧に学習しているかもしれないが、歪んだ現実から学習している。
  • アルゴリズム・バイアスはモデル中心であり、アルゴリズム自体の設計や使用される最適化アルゴリズムに起因する。 最適化アルゴリズムに起因する。例えば モデルは、全体的な精度を最大化するために多数派のクラスを優先し、エッジケースを無視するような数学的傾向があるかもしれません。 を無視する。

どちらもAIにおける偏見という広範な問題の一因であり、それらに対処することはAI倫理の中心である。 AI倫理とAIにおける公正さにとって中心的な問題である。 AIにおける公平性の中心である。

軽減策

開発者は、バイアスを特定し、軽減するためにいくつかのテクニックを採用することができる。合成データ 合成データを利用することで、実世界のデータが不足しているギャップを埋めることができる。 を埋めるのに役立つ。さらに、厳密な モデル評価 (世界平均ではなく)サブグループ別にパフォーマンスを分解する厳密なモデル評価は、隠れた欠陥を明らかにすることができる。

もうひとつの強力な方法は、データの増強である。人為的にトレーニング画像を変更する。 人為的にトレーニング画像を変更することで、色、回転、照明などを変更することができる。 を学習させることができる。

次の例は、トレーニング中にオーグメンテーションを適用する方法を示している。 Ultralytics YOLO11を使用したトレーニング中に、物体 バイアスの軽減に役立ちます:

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

データセットの品質を積極的に管理し ハイパーパラメータのようなツールを使うことで、エンジニアは 責任あるAI システムを構築することができる。公平性の測定基準についてさらに読むには、次のようなリソースがあります。 IBMのAI Fairness 360のようなリソースは、優れたオープンソース ツールキットを提供している。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加