Dataset Bias
Yapay zekadaki veri kümesi önyargısının nedenlerini keşfet ve sapmayı nasıl azaltacağını öğren. Adaleti artırmak için Ultralytics Platform'u ve Ultralytics YOLO26'yı nasıl kullanacağını keşfet.
Veri kümesi yanlılığı, makine öğrenimi (ML) modellerini eğitmek için kullanılan bilgiler sistematik hatalar veya çarpık dağılımlar içerdiğinde ortaya çıkar ve sonuçta ortaya çıkan yapay zeka sisteminin belirli sonuçları diğerlerine tercih etmesine yol açar. Modeller örüntü tanıma motorları olarak işlev gördüklerinden, tamamen girdilerine bağımlıdırlar; eğer eğitim verisi gerçek dünya ortamının çeşitliliğini doğru bir şekilde yansıtmıyorsa, model bu kör noktaları devralacaktır. Bu durum genellikle zayıf genelleme ile sonuçlanır; burada yapay zeka test sırasında yüksek puanlar alabilir, ancak çeşitli veya beklenmedik senaryolarda gerçek zamanlı çıkarım için dağıtıldığında önemli ölçüde başarısız olur.
Link to this sectionYaygın Veri Çarpıklığı Kaynakları#
Yanlılık, geliştirme yaşam döngüsünün çeşitli aşamalarında bir veri kümesine sızabilir ve sıklıkla toplama veya etiketleme sırasındaki insan kararlarından kaynaklanır.
- Seçim Yanlılığı: Bu, toplanan veriler hedef kitleyi rastgele temsil etmediğinde ortaya çıkar. Örneğin, ağırlıklı olarak ünlülerin görüntülerinden oluşan bir yüz tanıma veri kümesi oluşturmak, modeli yoğun makyaj ve profesyonel aydınlatmaya doğru kaydırarak günlük web kamerası görüntülerinde başarısız olmasına neden olabilir.
- Etiketleme Hataları: Veri etiketleme sırasındaki öznellik, insan önyargısını beraberinde getirebilir. Eğer etiketleyiciler net yönergelerin eksikliği nedeniyle belirsiz nesneleri tutarlı bir şekilde yanlış sınıflandırırlarsa, model bu hataları temel gerçeklik olarak kabul eder.
- Temsil Yanlılığı: Rastgele seçilse bile, azınlık grupları çoğunluk sınıfı tarafından istatistiksel olarak bastırılabilir. Nesne algılama konusunda, 10.000 araba görseli içeren ancak sadece 100 bisiklet görseli olan bir veri kümesi, arabaları algılamaya yönelik yanlı bir modelle sonuçlanacaktır.
Link to this sectionGerçek Dünya Uygulamaları ve Sonuçları#
Veri kümesi yanlılığının etkisi, özellikle otomatik sistemlerin yüksek riskli kararlar aldığı veya fiziksel dünya ile etkileşime girdiği çeşitli endüstrilerde önemlidir.
Otomotiv endüstrisinde, otomotivde yapay zeka, yayaları ve engelleri tanımlamak için kameralara güvenir. Eğer sürücüsüz bir araç öncelikle güneşli, kuru iklimlerde toplanan verilerle eğitilmişse, kar veya şiddetli yağmur altında çalışırken performans düşüşü sergileyebilir. Bu, eğitim dağılımının operasyonel dağılımla eşleşmemesinin güvenlik risklerine yol açtığı klasik bir örnektir.
Benzer şekilde, tıbbi görüntü analizi alanında, tanı modelleri genellikle geçmiş hasta verileri üzerinde eğitilir. Cilt rahatsızlıklarını tespit etmek için tasarlanmış bir model, daha açık cilt tonlarının hakim olduğu bir veri kümesi üzerinde eğitilirse, daha koyu cilt tonuna sahip hastalara teşhis koyarken önemli ölçüde daha düşük doğruluk gösterebilir. Bunu ele almak, tüm demografik gruplar genelinde yapay zekada adalet sağlayan çeşitli veri kümeleri oluşturmak için kararlı bir çaba gerektirir.
Link to this sectionAzaltma Stratejileri#
Geliştiriciler, titiz denetim ve gelişmiş eğitim stratejileri uygulayarak veri kümesi yanlılığını azaltabilirler. Veri artırma gibi teknikler, yeterince temsil edilmeyen örneklerin varyasyonlarını yapay olarak oluşturarak (örneğin, döndürme, çevirme veya parlaklığı ayarlama) veri kümelerini dengelemeye yardımcı olur. Ayrıca, sentetik veri oluşturmak, gerçek dünya verilerinin kıt olduğu veya toplanmasının zor olduğu durumlardaki boşlukları doldurabilir.
Bu veri kümelerini etkili bir şekilde yönetmek çok önemlidir. Ultralytics Platform, ekiplerin sınıf dağılımlarını görselleştirmesine ve eğitim başlamadan önce dengesizlikleri tanımlamasına olanak tanır. Ek olarak, NIST AI Risk Management Framework gibi yönergelere bağlı kalmak, kuruluşların bu riskleri sistematik olarak tanımlama ve azaltma yaklaşımlarını yapılandırmalarına yardımcı olur.
Link to this sectionVeri Kümesi Yanlılığı vs. İlgili Kavramlar#
Hatanın nereden kaynaklandığını anlamak için veri kümesi yanlılığını benzer terimlerden ayırt etmek yararlıdır:
- vs. Algoritmik Yanlılık: Veri kümesi yanlılığı veri merkezlidir; "malzemelerin" hatalı olduğunu ima eder. Algoritmik yanlılık model merkezlidir; algoritmanın kendisinin tasarımından veya azınlık grupları pahasına genel metrikleri maksimize etmek için çoğunluk sınıflarına öncelik verebilen optimizasyon algoritmasından kaynaklanır.
- vs. Model Kayması: Veri kümesi yanlılığı, eğitim sırasında mevcut olan statik bir sorundur. Model kayması (veya veri kayması), model dağıtıldıktan sonra gerçek dünya verileri zaman içinde değiştiğinde ortaya çıkar ve sürekli model izleme gerektirir.
Link to this sectionKod Örneği: Yanlılığı Azaltmak için Artırma#
Aşağıdaki örnek, YOLO26 ile eğitim sırasında veri artırmanın nasıl uygulanacağını göstermektedir. Geometrik artırmaları artırarak, model daha iyi genelleme yapmayı öğrenir ve bu da eğitim kümesinde bulunan belirli nesne yönelimlerine veya konumlarına yönelik yanlılığı potansiyel olarak azaltır.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)





