YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Veri Kümesi Yanlılığı

Gerçek dünya uygulamaları için adil, doğru ve güvenilir makine öğrenimi modelleri sağlamak amacıyla, yapay zekadaki veri kümesi yanlılığını nasıl belirleyeceğinizi ve azaltacağınızı öğrenin.

Model eğitimi için kullanılan veriler, modelin konuşlandırılacağı gerçek dünya ortamını doğru bir şekilde temsil etmediğinde veri kümesi yanlılığı oluşur. Bu dengesizlik veya çarpık temsil, makine öğreniminde (ML) kritik bir sorundur, çünkü modeller eğitim verilerinde bulunan kalıpları ve kusurları öğrenir. Veriler yanlıysa, ortaya çıkan yapay zeka sistemi bu yanlılığı devralacak ve genellikle büyütecek, bu da yanlış, güvenilmez ve adaletsiz sonuçlara yol açacaktır. Veri kümesi yanlılığını ele almak, sorumlu yapay zeka geliştirmenin ve Yapay Zeka Etiğini desteklemenin temel taşıdır.

Veri Kümesi Yanlılığının Yaygın Kaynakları

Yanlılık, veri hattının çeşitli aşamalarında, toplamadan işlemeye kadar ortaya çıkabilir. Bazı yaygın türler şunlardır:

  • Seçim Yanlılığı: Bu, verilerin hedef popülasyondan rastgele örneklenmediği durumlarda meydana gelir. Örneğin, bir perakende analitik modeli için yalnızca yüksek gelirli mahallelerden veri toplamak, bir seçim yanlılığı yaratır ve modelin diğer müşteri gruplarının davranışlarını anlamamasına yol açar.
  • Temsil Yanlılığı: Bu, belirli alt grupların veri kümesinde yeterince temsil edilmemesi veya aşırı temsil edilmesi durumunda meydana gelir. Çoğunlukla gündüz görüntüleri içeren bir trafik izleme benchmark veri kümesi, bir modelin gece araçları algılarken kötü performans göstermesine neden olur.
  • Ölçüm Yanlılığı: Bu, veri toplama sırasında veya ölçüm araçlarının kendisinden kaynaklanan sistematik hatalardan kaynaklanır. Örneğin, bir demografik grup için yüksek çözünürlüklü kameralar ve diğeri için düşük çözünürlüklü kameralar kullanmak, bir bilgisayarlı görü veri kümesine ölçüm yanlılığı getirir.
  • Açıklama Önyargısı: Bu, veri etiketleme sürecinde insan etiketleyicilerin öznel yargılarından kaynaklanır. Önceden tasarlanmış kavramlar, özellikle öznel yorumlama içeren görevlerde etiketlerin nasıl uygulandığını etkileyebilir ve bu da modelin öğrenmesini etkileyebilir.

Gerçek Dünya Örnekleri

  1. Yüz Tanıma Sistemleri: İlk ticari yüz tanıma sistemleri, kadınlar ve renkli insanlar için daha az doğruydu. Gender Shades projesi gibi araştırmalar, bunun büyük ölçüde eğitim veri kümelerinin ezici bir çoğunlukla beyaz erkeklerin görüntülerinden oluşmasından kaynaklandığını ortaya koydu. Bu çarpık veriler üzerinde eğitilen modeller, farklı demografik özellikler arasında genelleme yapamadı.
  2. Tıbbi Teşhis: Tıbbi görüntü analizi için tasarlanmış bir yapay zeka modeli, örneğin X-ışınlarında tümörleri tespit etmek gibi, tek bir hastaneden elde edilen veriler üzerinde eğitilebilir. Bu model, o hastanenin görüntüleme ekipmanına özgü özellikleri öğrenebilir. Farklı makinelere sahip başka bir hastanede konuşlandırıldığında, performansı veri kayması nedeniyle önemli ölçüde düşebilir. Bu, sağlık hizmetlerinde yapay zeka alanında çeşitli veri kaynaklarına duyulan ihtiyacı vurgulamaktadır.

Veri Kümesi Yanlılığı ve Algoritmik Yanlılık

Veri kümesi yanlılığı ile algoritmik yanlılığı birbirinden ayırmak önemlidir.

  • Veri Kümesi Yanlılığı verinin kendisinden kaynaklanır. Veri, model onu görmeden önce kusurludur, bu da onu temel bir sorun haline getirir.
  • Algoritmik Yanlılık, mükemmel dengeli verilerle bile, belirli sonuçları diğerlerine göre sistematik olarak tercih edebilecek bir modelin mimarisinden veya optimizasyon sürecinden kaynaklanabilir.

Ancak, ikisi derinden bağlantılıdır. Veri kümesi yanlılığı, algoritmik yanlılığın en yaygın nedenlerinden biridir. Yanlı veriler üzerinde eğitilmiş bir model, neredeyse kesinlikle yanlı tahminlerde bulunacak ve yanlı bir algoritma oluşturacaktır. Bu nedenle, Yapay Zekada Adaleti sağlamak, verilerdeki yanlılığı ele almakla başlamalıdır.

Hafifletme Stratejileri

Veri kümesi yanlılığını azaltmak, makine öğrenimi operasyonları (MLOps) yaşam döngüsü boyunca dikkatli planlama ve uygulama gerektiren devam eden bir süreçtir.

  • Düşünceli Veri Toplama: Gerçek dünyayı yansıtan çeşitli ve temsili veri kaynakları için çabalayın. Veri toplama ve etiketleme için yapılandırılmış bir kılavuz izlemek önemlidir. Veri Kümeleri için Veri Sayfaları gibi çerçeveler kullanılarak veri kümelerinin belgelenmesi şeffaflığı teşvik eder.
  • Veri Artırma ve Sentezleme: Yetersiz temsil edilen grupları aşırı örnekleme, hedeflenen veri artırma uygulama veya veri kümesini dengelemek için sentetik veri oluşturma gibi teknikleri kullanın. Ultralytics modelleri, çeşitli güçlü artırma yöntemlerini yerel olarak destekler.
  • Yanlılık Denetleme Araçları (Bias Auditing Tools): Veri kümelerini ve modelleri potansiyel yanlılıklar açısından incelemek için Google'ın What-If Tool'u ve Fairlearn gibi açık kaynaklı kitaplıklar gibi araçlar kullanın.
  • Titiz Model Değerlendirmesi: Genel doğruluk metriklerinin ötesinde, model performansını farklı demografik veya çevresel alt gruplar arasında değerlendirin. Şeffaflığı korumak için Model Kartları gibi yöntemler kullanarak bulguları belgelendirmek en iyi uygulamadır.
  • Modern Platformlardan Yararlanın: Ultralytics HUB gibi platformlar, veri seti yönetimi, görselleştirme ve Ultralytics YOLO11 gibi modelleri eğitmek için entegre araçlar sunar. Bu, geliştiricilerin çeşitli veriler üzerinde model oluşturma ve değerlendirme sürecini basitleştirerek daha adil sistemler kurmasına yardımcı olur.

Geliştiriciler, veri kümesi yanlılığını proaktif olarak ele alarak daha sağlam, güvenilir ve etik yapay zeka sistemleri oluşturabilirler. Bu konu, Adalet, Hesap Verebilirlik ve Şeffaflık ACM Konferansı (FAccT) gibi önde gelen konferanslarda sıkça tartışılmaktadır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı