Explore how dataset bias impacts AI accuracy and fairness. Learn to identify data skew and use the [Ultralytics Platform](https://platform.ultralytics.com) to mitigate risks.
Veri kümesi önyargısı, makine öğrenimi (ML) modellerini öğretmek için kullanılan bilgilerde sistematik hatalar veya çarpık dağılımlar olduğunda ortaya çıkar ve sonuçta ortaya çıkan yapay zeka sistemi belirli sonuçları diğerlerine göre tercih eder. Modeller, örüntü tanıma motorları olarak işlev gördükleri için, tamamen girdilerine bağımlıdırlar; eğitim verileri gerçek dünya ortamının çeşitliliğini doğru bir şekilde yansıtmıyorsa, model bu kör noktaları miras alır. Bu fenomen genellikle zayıf genellemeyle sonuçlanır; bu durumda AI, test sırasında yüksek puanlar elde edebilir, ancak çeşitli veya beklenmedik senaryolarda gerçek zamanlı çıkarım için kullanıldığında önemli ölçüde başarısız olur.
Önyargı, geliştirme yaşam döngüsünün çeşitli aşamalarında veri setine sızabilir ve genellikle toplama veya açıklama sırasında insan kararlarından kaynaklanır .
Veri seti önyargısının etkisi, özellikle otomatik sistemlerin yüksek riskli kararlar aldığı veya fiziksel dünyayla etkileşime girdiği çeşitli sektörlerde önemlidir.
In the automotive industry, AI in automotive relies on cameras to identify pedestrians and obstacles. If a self-driving car is trained primarily on data collected in sunny, dry climates, it may exhibit performance degradation when operating in snow or heavy rain. This is a classic example of the training distribution failing to match the operational distribution, leading to safety risks.
Benzer şekilde, tıbbi görüntü analizinde de tanı modelleri genellikle geçmiş hasta verileriyle eğitilir. detect hastalıklarını detect için tasarlanmış bir model, daha açık ten rengi hakim bir veri setiyle eğitilirse, daha koyu tenli hastaları teşhis ederken önemli ölçüde daha düşük doğruluk gösterebilir. Bu sorunu çözmek için, tüm demografik gruplarda yapay zekanın adil olmasını sağlayan çeşitli veri setlerini derlemek için ortak bir çaba gösterilmesi gerekir.
Geliştiriciler, titiz denetim ve gelişmiş eğitim stratejileri kullanarak veri seti önyargısını azaltabilirler. Veri artırma gibi teknikler, temsil edilmeyen örneklerin varyasyonlarını yapay olarak oluşturarak (örneğin, çevirme, döndürme veya parlaklığı ayarlama) veri setlerinin dengelenmesine yardımcı olur. Ayrıca, sentetik veri üretmek, gerçek dünya verilerinin az olduğu veya toplanmasının zor olduğu durumlarda boşlukları doldurabilir.
Bu veri kümelerini etkili bir şekilde yönetmek çok önemlidir. Ultralytics , ekiplerin sınıf dağılımlarını görselleştirmelerine ve eğitim başlamadan önce dengesizlikleri tespit etmelerine olanak tanır. Ayrıca, NIST AI Risk Yönetimi Çerçevesi gibi kılavuzlara uymak, kuruluşların bu riskleri sistematik olarak tespit etme ve azaltma yaklaşımlarını yapılandırmalarına yardımcı olur.
Hatanın nereden kaynaklandığını anlamak için veri seti önyargısını benzer terimlerden ayırmak yararlıdır:
Aşağıdaki örnek, YOLO26 ile eğitim sırasında veri artırmanın nasıl uygulanacağını göstermektedir. Geometrik artırmaları artırarak, model daha iyi genelleme yapmayı öğrenir ve eğitim setinde bulunan belirli nesne yönelimlerine veya konumlarına yönelik önyargıyı potansiyel olarak azaltır. .
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)
