Veri Kümesi Yanlılığı
Gerçek dünya uygulamaları için adil, doğru ve güvenilir makine öğrenimi modelleri sağlamak amacıyla yapay zekada veri kümesi önyargısının nasıl belirleneceğini ve azaltılacağını öğrenin.
Veri kümesi yanlılığı, model eğitimi için kullanılan veriler, modelin uygulanacağı gerçek dünya ortamını doğru bir şekilde temsil etmediğinde ortaya çıkar. Bu dengesizlik veya çarpık temsil, makine öğreniminde (ML) kritik bir konudur çünkü modeller, eğitim verilerinde bulunan kalıpları ve kusurları öğrenir. Veriler önyargılıysa, ortaya çıkan yapay zeka sistemi bu önyargıyı miras alacak ve genellikle artırarak yanlış, güvenilmez ve adil olmayan sonuçlara yol açacaktır. Veri kümesi önyargısını ele almak, sorumlu YZ geliştirmenin ve YZ Etiğini korumanın temel taşıdır.
Veri Seti Yanlılığının Yaygın Kaynakları
Önyargı, veri hattının toplanmasından işlenmesine kadar çeşitli aşamalarında ortaya çıkabilir. Bazı yaygın türler şunlardır:
- Seçim Yanlılığı: Bu durum, veriler hedef popülasyondan rastgele örneklenmediğinde ortaya çıkar. Örneğin, bir perakende analitik modeli için sadece yüksek gelirli mahallelerden veri toplamak bir seçim yanlılığı yaratarak diğer müşteri gruplarının davranışlarını anlamayan bir modele yol açacaktır.
- Temsil Önyargısı: Bu, belirli alt grupların veri kümesinde yetersiz veya aşırı temsil edilmesi durumunda ortaya çıkar. Trafik izleme için çoğunlukla gündüz görüntüleri içeren bir kıyaslama veri kümesi, bir modelin gece araçlarını tespit ederken düşük performans göstermesine neden olacaktır.
- Ölçüm Yanlılığı: Bu, veri toplama sırasındaki sistematik hatalardan veya ölçüm araçlarının kendisinden kaynaklanır. Örneğin, bir demografik veri için yüksek çözünürlüklü kameralar kullanılırken bir diğeri için düşük çözünürlüklü kameraların kullanılması bilgisayarla görme veri setine ölçüm yanlılığı katar.
- Ek Açıklama Önyargısı: Bu, veri etiketleme işlemi sırasında insan ek açıklamacıların öznel yargılarından kaynaklanır. Önyargılı fikirler, özellikle öznel yorumlama içeren görevlerde etiketlerin nasıl uygulandığını etkileyebilir ve bu da modelin öğrenmesini etkileyebilir.
Gerçek Dünyadan Örnekler
- Yüz Tanıma Sistemleri: İlk ticari yüz tanıma sistemlerinin kadınlar ve beyaz olmayan kişiler için daha az doğru sonuçlar verdiği bilinmektedir. Gender Shades projesi gibi araştırmalar, bunun büyük ölçüde eğitim veri setlerinin ezici bir çoğunlukla beyaz erkeklerin görüntülerinden oluşmasından kaynaklandığını ortaya koydu. Bu çarpık veriler üzerinde eğitilen modeller, farklı demografik özellikler arasında genelleme yapamadı.
- Tıbbi Teşhis: X-ışınlarındaki tümörleri tespit etmek gibi tıbbi görüntü analizi için tasarlanmış bir yapay zeka modeli, tek bir hastaneden alınan verilerle eğitilebilir. Bu model, o hastanenin görüntüleme ekipmanına özgü özellikleri öğrenebilir. Farklı makinelere sahip başka bir hastanede kullanıldığında, veri kayması nedeniyle performansı önemli ölçüde düşebilir. Bu durum, sağlık hizmetlerinde yapay zeka için çeşitli veri kaynaklarına duyulan ihtiyacı vurgulamaktadır.
Veri Seti Yanlılığı ve Algoritmik Yanlılık
Veri seti önyargısı ile algoritmik önyargı arasında ayrım yapmak önemlidir.
- Veri Kümesi Yanlılığı verinin kendisinden kaynaklanır. Veriler, model daha onları görmeden önce kusurludur ve bu da onu temel bir sorun haline getirir.
- Algoritmik Önyargı, bir modelin mimarisinden veya optimizasyon sürecinden kaynaklanabilir; bu da mükemmel şekilde dengelenmiş verilerle bile sistematik olarak belirli sonuçları diğerlerine tercih edebilir.
Ancak bu ikisi birbiriyle derinden bağlantılıdır. Veri seti yanlılığı, algoritmik yanlılığın en yaygın nedenlerinden biridir. Önyargılı veriler üzerinde eğitilen bir model, neredeyse kesinlikle önyargılı tahminler yapacak ve önyargılı bir algoritma oluşturacaktır. Bu nedenle, YZ'de Adaleti sağlamak, verilerdeki önyargıyı ele almakla başlamalıdır.
Hafifletme Stratejileri
Veri kümesi yanlılığının azaltılması, makine öğrenimi operasyonları (MLOps) yaşam döngüsü boyunca dikkatli planlama ve yürütme gerektiren devam eden bir süreçtir.
- Düşünceli Veri Toplama: Gerçek dünyayı yansıtan çeşitli ve temsili veri kaynakları için çaba gösterin. Veri toplama ve açıklama için yapılandırılmış bir kılavuzun izlenmesi esastır. Veri Setleri için Veri Sayfaları gibi çerçeveler kullanarak veri setlerini belgelemek şeffaflığı teşvik eder.
- Veri Artırma ve Sentezleme: Veri kümesini dengelemek için yetersiz temsil edilen grupları aşırı örnekleme, hedefli veri artırımı uygulama veya sentetik veri oluşturma gibi teknikler kullanın. Ultralytics modelleri, çeşitli güçlü artırma yöntemlerini yerel olarak destekler.
- Önyargı Denetleme Araçları: Google'ın What-If Aracı gibi araçları ve Fairlearn gibi açık kaynaklı kütüphaneleri kullanarak veri kümelerini ve modelleri olası önyargılara karşı inceleyin.
- Titiz Model Değerlendirmesi: Genel doğruluk ölçümlerinin ötesinde, farklı demografik veya çevresel alt gruplarda model performansını değerlendirin. Şeffaflığı korumak için Model Kartları gibi yöntemler kullanarak bulguları belgelemek en iyi uygulamadır.
- Modern Platformlardan Yararlanın: Ultralytics HUB gibi platformlar, veri kümesi yönetimi, görselleştirme ve Ultralytics YOLO11 gibi eğitim modelleri için entegre araçlar sunar. Bu, geliştiricilerin çeşitli veriler üzerinde model oluşturma ve değerlendirme sürecini basitleştirerek daha eşitlikçi sistemler oluşturmalarına yardımcı olur.
Geliştiriciler, veri kümesi önyargısını proaktif olarak ele alarak, ACM Adillik, Hesap Verebilirlik ve Şeffaflık Konferansı (FAccT) gibi önde gelen konferanslarda sıkça tartışılan bir konu olan daha sağlam, güvenilir ve etik yapay zeka sistemleri oluşturabilirler.