Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Veri Kümesi Yanlılığı

Explore how dataset bias impacts AI accuracy and fairness. Learn to identify data skew and use the [Ultralytics Platform](https://platform.ultralytics.com) to mitigate risks.

Veri kümesi önyargısı, makine öğrenimi (ML) modellerini öğretmek için kullanılan bilgilerde sistematik hatalar veya çarpık dağılımlar olduğunda ortaya çıkar ve sonuçta ortaya çıkan yapay zeka sistemi belirli sonuçları diğerlerine göre tercih eder. Modeller, örüntü tanıma motorları olarak işlev gördükleri için, tamamen girdilerine bağımlıdırlar; eğitim verileri gerçek dünya ortamının çeşitliliğini doğru bir şekilde yansıtmıyorsa, model bu kör noktaları miras alır. Bu fenomen genellikle zayıf genellemeyle sonuçlanır; bu durumda AI, test sırasında yüksek puanlar elde edebilir, ancak çeşitli veya beklenmedik senaryolarda gerçek zamanlı çıkarım için kullanıldığında önemli ölçüde başarısız olur.

Verilerin Yanlışlıklarının Yaygın Nedenleri

Önyargı, geliştirme yaşam döngüsünün çeşitli aşamalarında veri setine sızabilir ve genellikle toplama veya açıklama sırasında insan kararlarından kaynaklanır .

  • Seçim Önyargısı: Bu, toplanan veriler hedef popülasyonu rastgele temsil etmediğinde ortaya çıkar. Örneğin, ağırlıklı olarak ünlülerin görüntülerini kullanarak bir yüz tanıma veri kümesi oluşturmak, modeli ağır makyaj ve profesyonel aydınlatmaya doğru çarpıtabilir ve bu da modelin günlük web kamerası görüntülerinde başarısız olmasına neden olabilir.
  • Etiketleme Hataları: Veri etiketleme sırasında öznellik, insan önyargılarını ortaya çıkarabilir. Açıklayıcılar, net kuralların olmaması nedeniyle belirsiz nesneleri sürekli olarak yanlış sınıflandırırsa, model bu hataları temel gerçek olarak değerlendirir.
  • Temsil Önyargısı: Rastgele seçilse bile, azınlık gruplar istatistiksel olarak çoğunluk sınıfı tarafından bastırılabilir. Nesne algılamada, 10.000 araba görüntüsü ve sadece 100 bisiklet görüntüsü içeren bir veri kümesi, arabaları algılamaya yönelik önyargılı bir modele yol açacaktır.

Gerçek Dünya Uygulamaları ve Sonuçları

Veri seti önyargısının etkisi, özellikle otomatik sistemlerin yüksek riskli kararlar aldığı veya fiziksel dünyayla etkileşime girdiği çeşitli sektörlerde önemlidir.

In the automotive industry, AI in automotive relies on cameras to identify pedestrians and obstacles. If a self-driving car is trained primarily on data collected in sunny, dry climates, it may exhibit performance degradation when operating in snow or heavy rain. This is a classic example of the training distribution failing to match the operational distribution, leading to safety risks.

Benzer şekilde, tıbbi görüntü analizinde de tanı modelleri genellikle geçmiş hasta verileriyle eğitilir. detect hastalıklarını detect için tasarlanmış bir model, daha açık ten rengi hakim bir veri setiyle eğitilirse, daha koyu tenli hastaları teşhis ederken önemli ölçüde daha düşük doğruluk gösterebilir. Bu sorunu çözmek için, tüm demografik gruplarda yapay zekanın adil olmasını sağlayan çeşitli veri setlerini derlemek için ortak bir çaba gösterilmesi gerekir.

Hafifletme Stratejileri

Geliştiriciler, titiz denetim ve gelişmiş eğitim stratejileri kullanarak veri seti önyargısını azaltabilirler. Veri artırma gibi teknikler, temsil edilmeyen örneklerin varyasyonlarını yapay olarak oluşturarak (örneğin, çevirme, döndürme veya parlaklığı ayarlama) veri setlerinin dengelenmesine yardımcı olur. Ayrıca, sentetik veri üretmek, gerçek dünya verilerinin az olduğu veya toplanmasının zor olduğu durumlarda boşlukları doldurabilir.

Bu veri kümelerini etkili bir şekilde yönetmek çok önemlidir. Ultralytics , ekiplerin sınıf dağılımlarını görselleştirmelerine ve eğitim başlamadan önce dengesizlikleri tespit etmelerine olanak tanır. Ayrıca, NIST AI Risk Yönetimi Çerçevesi gibi kılavuzlara uymak, kuruluşların bu riskleri sistematik olarak tespit etme ve azaltma yaklaşımlarını yapılandırmalarına yardımcı olur.

Veri Kümesi Önyargısı ve İlgili Kavramlar

Hatanın nereden kaynaklandığını anlamak için veri seti önyargısını benzer terimlerden ayırmak yararlıdır:

  • vs. Algoritmik Önyargı: Veri kümesi önyargısı veri merkezlidir; "bileşenlerin" kusurlu olduğunu ima eder. Algoritmik önyargı model merkezlidir; algoritmanın kendisinin tasarımından veya optimizasyon algoritmasından kaynaklanır ve bu algoritma, azınlık gruplarını feda ederek genel metrikleri en üst düzeye çıkarmak için çoğunluk sınıflarına öncelik verebilir.
  • vs. Model Drift: Veri kümesi önyargısı, eğitim sırasında mevcut olan statik bir sorundur. Model drift (veya veri drift), model uygulandıktan sonra gerçek dünya verilerinin zaman içinde değişmesi durumunda ortaya çıkar ve sürekli model izlemeyi gerektirir.

Kod Örneği: Önyargıyı Azaltmak için Güçlendirme

Aşağıdaki örnek, YOLO26 ile eğitim sırasında veri artırmanın nasıl uygulanacağını göstermektedir. Geometrik artırmaları artırarak, model daha iyi genelleme yapmayı öğrenir ve eğitim setinde bulunan belirli nesne yönelimlerine veya konumlarına yönelik önyargıyı potansiyel olarak azaltır. .

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın