AI'da veri seti önyargısının nedenlerini keşfedin ve çarpıklığı nasıl azaltabileceğinizi öğrenin. Adaleti artırmak için Ultralytics ve Ultralytics nasıl kullanabileceğinizi keşfedin.
Veri kümesi önyargısı, makine öğrenimi (ML) modellerini öğretmek için kullanılan bilgilerde sistematik hatalar veya çarpık dağılımlar olduğunda ortaya çıkar ve sonuçta ortaya çıkan yapay zeka sistemi belirli sonuçları diğerlerine göre tercih eder. Modeller, örüntü tanıma motorları olarak işlev gördükleri için, tamamen girdilerine bağımlıdırlar; eğitim verileri gerçek dünya ortamının çeşitliliğini doğru bir şekilde yansıtmıyorsa, model bu kör noktaları miras alır. Bu fenomen genellikle zayıf genellemeyle sonuçlanır; bu durumda AI, test sırasında yüksek puanlar elde edebilir, ancak çeşitli veya beklenmedik senaryolarda gerçek zamanlı çıkarım için kullanıldığında önemli ölçüde başarısız olur.
Önyargı, geliştirme yaşam döngüsünün çeşitli aşamalarında veri setine sızabilir ve genellikle toplama veya açıklama sırasında insan kararlarından kaynaklanır .
Veri seti önyargısının etkisi, özellikle otomatik sistemlerin yüksek riskli kararlar aldığı veya fiziksel dünyayla etkileşime girdiği çeşitli sektörlerde önemlidir.
Otomotiv endüstrisinde, otomotivde yapay zeka, yayaları ve engelleri tanımak için kameralara dayanır. Otonom bir araç, öncelikle güneşli ve kuru iklimlerde toplanan verilerle eğitilirse, kar veya şiddetli yağmurda çalışırken performans düşüşü gösterebilir. Bu, eğitim dağılımının operasyonel dağılımla eşleşmemesi ve güvenlik risklerine yol açmasının klasik bir örneğidir.
Benzer şekilde, tıbbi görüntü analizinde de tanı modelleri genellikle geçmiş hasta verileriyle eğitilir. detect hastalıklarını detect için tasarlanmış bir model, daha açık ten rengi hakim bir veri setiyle eğitilirse, daha koyu tenli hastaları teşhis ederken önemli ölçüde daha düşük doğruluk gösterebilir. Bu sorunu çözmek için, tüm demografik gruplarda yapay zekanın adil olmasını sağlayan çeşitli veri setlerini derlemek için ortak bir çaba gösterilmesi gerekir.
Geliştiriciler, titiz denetim ve gelişmiş eğitim stratejileri kullanarak veri seti önyargısını azaltabilirler. Veri artırma gibi teknikler, temsil edilmeyen örneklerin varyasyonlarını yapay olarak oluşturarak (örneğin, çevirme, döndürme veya parlaklığı ayarlama) veri setlerinin dengelenmesine yardımcı olur. Ayrıca, sentetik veri üretmek, gerçek dünya verilerinin az olduğu veya toplanmasının zor olduğu durumlarda boşlukları doldurabilir.
Bu veri kümelerini etkili bir şekilde yönetmek çok önemlidir. Ultralytics , ekiplerin sınıf dağılımlarını görselleştirmelerine ve eğitim başlamadan önce dengesizlikleri tespit etmelerine olanak tanır. Ayrıca, NIST AI Risk Yönetimi Çerçevesi gibi kılavuzlara uymak, kuruluşların bu riskleri sistematik olarak tespit etme ve azaltma yaklaşımlarını yapılandırmalarına yardımcı olur.
Hatanın nereden kaynaklandığını anlamak için veri seti önyargısını benzer terimlerden ayırmak yararlıdır:
Aşağıdaki örnek, YOLO26 ile eğitim sırasında veri artırmanın nasıl uygulanacağını göstermektedir. Geometrik artırmaları artırarak, model daha iyi genelleme yapmayı öğrenir ve eğitim setinde bulunan belirli nesne yönelimlerine veya konumlarına yönelik önyargıyı potansiyel olarak azaltır. .
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)