Sözlük

Veri Kümesi Yanlılığı

AI'da veri seti önyargısının nedenlerini keşfedin ve çarpıklığı nasıl azaltabileceğinizi öğrenin. Adaleti artırmak için Ultralytics ve Ultralytics nasıl kullanabileceğinizi keşfedin.

Veri kümesi önyargısı, makine öğrenimi (ML) modellerini öğretmek için kullanılan bilgilerde sistematik hatalar veya çarpık dağılımlar olduğunda ortaya çıkar ve sonuçta ortaya çıkan yapay zeka sistemi belirli sonuçları diğerlerine göre tercih eder. Modeller, örüntü tanıma motorları olarak işlev gördükleri için, tamamen girdilerine bağımlıdırlar; eğitim verileri gerçek dünya ortamının çeşitliliğini doğru bir şekilde yansıtmıyorsa, model bu kör noktaları miras alır. Bu fenomen genellikle zayıf genellemeyle sonuçlanır; bu durumda AI, test sırasında yüksek puanlar elde edebilir, ancak çeşitli veya beklenmedik senaryolarda gerçek zamanlı çıkarım için kullanıldığında önemli ölçüde başarısız olur.

Verilerin Yanlışlıklarının Yaygın Nedenleri

Önyargı, geliştirme yaşam döngüsünün çeşitli aşamalarında veri setine sızabilir ve genellikle toplama veya açıklama sırasında insan kararlarından kaynaklanır .

Seçim Önyargısı: Bu, toplanan veriler hedef popülasyonu rastgele temsil etmediğinde ortaya çıkar. Örneğin, ağırlıklı olarak ünlülerin görüntülerini kullanarak bir yüz tanıma veri kümesi oluşturmak, modeli ağır makyaj ve profesyonel aydınlatmaya doğru çarpıtabilir ve bu da modelin günlük web kamerası görüntülerinde başarısız olmasına neden olabilir.
Etiketleme Hataları: Veri etiketleme sırasında öznellik, insan önyargılarını ortaya çıkarabilir. Açıklayıcılar, net kuralların olmaması nedeniyle belirsiz nesneleri sürekli olarak yanlış sınıflandırırsa, model bu hataları temel gerçek olarak değerlendirir.
Temsil Önyargısı: Rastgele seçilse bile, azınlık gruplar istatistiksel olarak çoğunluk sınıfı tarafından bastırılabilir. Nesne algılamada, 10.000 araba görüntüsü ve sadece 100 bisiklet görüntüsü içeren bir veri kümesi, arabaları algılamaya yönelik önyargılı bir modele yol açacaktır.

Gerçek Dünya Uygulamaları ve Sonuçları

Veri seti önyargısının etkisi, özellikle otomatik sistemlerin yüksek riskli kararlar aldığı veya fiziksel dünyayla etkileşime girdiği çeşitli sektörlerde önemlidir.

Otomotiv endüstrisinde, otomotivde yapay zeka, yayaları ve engelleri tanımak için kameralara dayanır. Otonom bir araç, öncelikle güneşli ve kuru iklimlerde toplanan verilerle eğitilirse, kar veya şiddetli yağmurda çalışırken performans düşüşü gösterebilir. Bu, eğitim dağılımının operasyonel dağılımla eşleşmemesi ve güvenlik risklerine yol açmasının klasik bir örneğidir.

Benzer şekilde, tıbbi görüntü analizinde de tanı modelleri genellikle geçmiş hasta verileriyle eğitilir. detect hastalıklarını detect için tasarlanmış bir model, daha açık ten rengi hakim bir veri setiyle eğitilirse, daha koyu tenli hastaları teşhis ederken önemli ölçüde daha düşük doğruluk gösterebilir. Bu sorunu çözmek için, tüm demografik gruplarda yapay zekanın adil olmasını sağlayan çeşitli veri setlerini derlemek için ortak bir çaba gösterilmesi gerekir.

Hafifletme Stratejileri

Geliştiriciler, titiz denetim ve gelişmiş eğitim stratejileri kullanarak veri seti önyargısını azaltabilirler. Veri artırma gibi teknikler, temsil edilmeyen örneklerin varyasyonlarını yapay olarak oluşturarak (örneğin, çevirme, döndürme veya parlaklığı ayarlama) veri setlerinin dengelenmesine yardımcı olur. Ayrıca, sentetik veri üretmek, gerçek dünya verilerinin az olduğu veya toplanmasının zor olduğu durumlarda boşlukları doldurabilir.

Bu veri kümelerini etkili bir şekilde yönetmek çok önemlidir. Ultralytics , ekiplerin sınıf dağılımlarını görselleştirmelerine ve eğitim başlamadan önce dengesizlikleri tespit etmelerine olanak tanır. Ayrıca, NIST AI Risk Yönetimi Çerçevesi gibi kılavuzlara uymak, kuruluşların bu riskleri sistematik olarak tespit etme ve azaltma yaklaşımlarını yapılandırmalarına yardımcı olur.

Veri Kümesi Önyargısı ve İlgili Kavramlar

Hatanın nereden kaynaklandığını anlamak için veri seti önyargısını benzer terimlerden ayırmak yararlıdır:

vs. Algoritmik Önyargı: Veri kümesi önyargısı veri merkezlidir; "bileşenlerin" kusurlu olduğunu ima eder. Algoritmik önyargı model merkezlidir; algoritmanın kendisinin tasarımından veya optimizasyon algoritmasından kaynaklanır ve bu algoritma, azınlık gruplarını feda ederek genel metrikleri en üst düzeye çıkarmak için çoğunluk sınıflarına öncelik verebilir.
vs. Model Drift: Veri kümesi önyargısı, eğitim sırasında mevcut olan statik bir sorundur. Model drift (veya veri drift), model uygulandıktan sonra gerçek dünya verilerinin zaman içinde değişmesi durumunda ortaya çıkar ve sürekli model izlemeyi gerektirir.

Kod Örneği: Önyargıyı Azaltmak için Güçlendirme

Aşağıdaki örnek, YOLO26 ile eğitim sırasında veri artırmanın nasıl uygulanacağını göstermektedir. Geometrik artırmaları artırarak, model daha iyi genelleme yapmayı öğrenir ve eğitim setinde bulunan belirli nesne yönelimlerine veya konumlarına yönelik önyargıyı potansiyel olarak azaltır. .

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Veri Kümesi Yanlılığı

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Verilerin Yanlışlıklarının Yaygın Nedenleri

Gerçek Dünya Uygulamaları ve Sonuçları

Hafifletme Stratejileri

Veri Kümesi Önyargısı ve İlgili Kavramlar

Kod Örneği: Önyargıyı Azaltmak için Güçlendirme

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Monoküler derinlik tahmini nedir? Genel bakış

AI tehdit tespiti için Ultralytics YOLO kullanımına bir bakış

Ultralytics topluluğuna katılın