Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Veri Kümesi Yanlılığı

Gerçek dünya uygulamaları için adil, doğru ve güvenilir makine öğrenimi modelleri sağlamak amacıyla, yapay zekadaki veri kümesi yanlılığını nasıl belirleyeceğinizi ve azaltacağınızı öğrenin.

Veri seti önyargısı, eğitmek için kullanılan bilgilerdeki sistematik bir hata veya dengesizlik anlamına gelir makine öğrenimi (ML) modelleri, sonuç olarak hizmet etmeleri amaçlanan gerçek dünya ortamını tam olarak yansıtmayan sistemler. Bu bağlamda bilgisayar görüşü (CV), modeller tanımayı öğrenir tamamen eğitim verilerine dayanan kalıplar. Eğer bu temel çarpıktır - örneğin, belirli bir demografik veya çevresel durumu aşırı temsil ederek - model bu kör noktaları "miras alacaktır". Bu olgu, zayıf genellemenin birincil nedenidir. Yapay zeka sistemi testlerde iyi performans gösteriyor ancak kullanıma sunulduğunda başarısız oluyor farklı senaryolarda gerçek zamanlı çıkarım.

Veri Kümesi Yanlılığının Yaygın Kaynakları

Önyargının nereden kaynaklandığını anlamak, önlemeye yönelik ilk adımdır. Genellikle hastalığın erken evrelerinde ortaya çıkar. ve veri̇ toplama ve açiklama süreç:

  • Seçim Yanlılığı: Toplanan veriler hedef kitleyi temsil etmediğinde ortaya çıkar rastgele. Örneğin, bir fotoğraf için görüntü toplamak yüz tanima si̇stemi̇ sadece üni̇versi̇teden öğrenciler yaş dağılımını çarpıtarak modelin yaşlı yetişkinler üzerinde daha düşük performans göstermesine neden olacaktır.
  • Temsil Önyargısı: Veriler geniş kapsamlı olarak toplansa bile, belirli gruplar önemli ölçüde yetersiz temsil edilmektedir. Kentsel dönüşüm için bir kıyaslama veri seti Çoğunlukla Avrupa şehirlerini içeren planlama, Asya veya Afrika'daki altyapıyı doğru bir şekilde analiz etmekte başarısız olabilir farklı mimari tarzları nedeniyle metropoller.
  • Etiketleme Önyargısı: Öznellik veri etiketleme insan önyargısını ortaya çıkarabilir. Eğer Açıklayıcılar, belirsizlik veya net yönergelerin olmaması nedeniyle belirli nesneleri sürekli olarak yanlış sınıflandırırsa, model bu hataları temel gerçek olarak öğrenir.

Gerçek Dünyadan Örnekler ve Etki

Veri seti yanlılığının sonuçları, küçük rahatsızlıklardan yüksek riskli işlerde kritik güvenlik hatalarına kadar değişebilir. endüstriler.

  1. Tıbbi Teşhis: İçinde Sağlık hizmetlerinde yapay zeka, modelleri detect etmek için kullanılır cilt kanseri gibi durumlar. Eğitim veri kümesi ağırlıklı olarak daha açık ten tonlarına sahip görüntülerden oluşuyorsa, modelin hastaları analiz ederken doğruluk önemli ölçüde düşer daha koyu tenli. Bu eşitsizlik, çeşitliliğin önemini vurgulamaktadır sağlamak için tıbbi görüntü analizi veri kümeleri eşitlikçi hasta bakımı.
  2. Otonom Sürüş: Sürücüsüz araçlar büyük ölçüde yayaları tanımlamak için nesne algılama ve engeller. Bir model ağırlıklı olarak güneşli ve kuru iklimlerde toplanan verilerle eğitilirse, engelleri detect etmekte başarısız olabilir. kar veya şiddetli yağmur sırasında tehlikeler. Bu, sınırlı çevresel farklılığın nasıl tehlikeli sonuçlar doğurduğunun klasik bir örneğidir otonom araçlardaki güvenlik açıkları.

Veri Kümesi Yanlılığı ve Algoritmik Yanlılık

Genellikle birlikte tartışılsa da, veri seti yanlılığını aşağıdakilerden ayırmak yararlı olacaktır algoritmik önyargı.

  • Veri Seti Yanlılığı veri merkezlidir; girdilerin (bileşenlerin) kusurlu olduğu anlamına gelir. Model şu şekilde olabilir mükemmel bir şekilde öğreniyor, ancak çarpıtılmış bir gerçeklikten öğreniyor.
  • Algoritmik Ö nyargı model merkezlidir; algoritmanın kendi tasarımından veya algoritmanın kullanılan optimizasyon algoritması. Örneğin, Bir model matematiksel olarak genel doğruluğu en üst düzeye çıkarmak için çoğunluk sınıflarına öncelik verme eğiliminde olabilir ve kenar davalar.

Her ikisi de yapay zekadaki daha geniş önyargı sorununa katkıda bulunur ve Bunları ele almak yapay zeka etiğinin merkezinde yer alır ve Yapay zekada adalet.

Hafifletme Stratejileri

Geliştiriciler önyargıyı tespit etmek ve azaltmak için çeşitli teknikler kullanabilir. Kullanılması sentetik veriler gerçek dünyadaki boşlukları doldurmaya yardımcı olabilir veri azdır. Ek olarak, titiz parçalayan model değerlendirmesi Alt gruplara göre performans (sadece genel bir ortalama yerine) gizli eksiklikleri ortaya çıkarabilir.

Bir diğer güçlü yöntem de veri artırımıdır. Tarafından Eğitim görüntülerini yapay olarak değiştirerek -renkleri, dönüşü veya ışığı değiştirerek- geliştiriciler modeli öğrenmeye zorlayabilir önyargılı tesadüfi ayrıntılara dayanmak yerine daha sağlam özellikler.

Aşağıdaki örnekte, eğitim sırasında artırmanın nasıl uygulanacağı gösterilmektedir Ultralytics YOLO11 nesne ile ilgili önyargıları azaltmaya yardımcı olmak için yönlendirme veya aydınlatma koşulları:

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

Veri seti kalitesini proaktif olarak yöneterek ve aşağıdaki gibi araçlar kullanarak artırma hiperparametreleri, mühendisler sorumlu yapay zeka herkes için güvenilir bir şekilde işleyen sistemler. Adalet ölçütleri hakkında daha fazla okuma için aşağıdaki gibi kaynaklar IBM'in Yapay Zeka Adaleti 360 mükemmel açık kaynak sağlar araç setleri.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın