"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Veri kümesi yanlılığının bilgisayarlı görü modellerini nasıl etkilediğini ve Ultralytics YOLO11'in akıllı artırma ve esnek eğitim araçlarıyla yanlılığı azaltmaya nasıl yardımcı olduğunu öğrenin.
Yapay zeka (AI) modelleri, sorunları çözme şeklimizi değiştiriyor ancak mükemmel değiller. Otonom sürüşlü arabalardan sağlık hizmetlerindeki tanı araçlarına kadar, verileri yorumlamak ve kararlar almak için yapay zekaya güveniyoruz. Peki ya verilerin kendisi kusurluysa ne olur?
Yapay zekadaki yanlılık, genellikle kimse farkına varmadan modellerde gelişen tutarsızlık kalıplarını ifade eder. Bu yanlılıklar, modellerin yanlış, tutarsız veya hatta zararlı tahminler yapmasına neden olabilir. Bilgisayarlı görmede, yanlılık genellikle tek bir temel kaynağa kadar izlenebilir: veri kümesi. Modeli eğitmek için kullanılan veriler dengesiz veya temsilci değilse, model bu boşlukları yansıtacaktır.
Veri kümesi yanlılığının nasıl oluştuğuna, bilgisayar görüşü modellerini nasıl etkilediğine ve geliştiricilerin bunu tespit etmek ve önlemek için atabileceği adımlara daha yakından bakalım. Ayrıca, Ultralytics YOLO11 gibi modellerin, daha iyi genelleme yapan, yani yeni, görülmemiş veriler üzerinde iyi performans gösteren ve herkese daha eşit hizmet eden daha adil yapay zeka sistemleri oluşturma çabalarını nasıl destekleyebileceğini de göstereceğiz.
Yapay zeka önyargısı nedir ve neden önemlidir?
YZ yanlılığı, bir YZ sistemindeki eğimli veya yanlış sonuçlara yol açan tutarlı hataları ifade eder. Daha basit bir ifadeyle, model, daha iyi performans gösterdiği için değil, nasıl eğitildiği nedeniyle bir tür görsel girdiyi diğerlerine göre tercih etmeye başlar ve bu da modelin adaletini etkiler.
Bu durum, modellerin görsel verilerden öğrendiği bilgisayarla görme alanında özellikle yaygın olabilir. Bir veri kümesi çoğunlukla tek tür nesne, sahne veya kişi içeriyorsa, model yalnızca bu durumlar için iyi çalışan kalıplar öğrenir.
Çoğunlukla büyük şehirlerden trafik görüntüleri üzerinde eğitilmiş bir model hayal edin. Kırsal bir alanda konuşlandırılırsa, alışılmadık yol düzenlerini yanlış sınıflandırabilir veya daha önce hiç görmediği araç türlerini tespit edemeyebilir. İşte bu, eylem halindeki bir yapay zeka yanlılığıdır. Daha düşük doğruluğa ve sınırlı genellemeye yol açar; bu da bir modelin yeni veya çeşitli girdilerde iyi performans gösterme yeteneğini ifade eder.
Sağlık veya güvenlik gibi doğruluğun esas olduğu uygulamalarda, bu hatalar sadece sinir bozucu olmakla kalmaz, tehlikeli de olabilir. Önyargıyı ele almak, performans, güvenilirlik ve güvenlik ile ilgilidir.
Veri kümesi yanlılığı model davranışını nasıl etkiler?
Veri kümesi yanlılığından bahsettiğimizde, bir modeli eğitmek için kullanılan verilerdeki dengesizliği veya sınırlamayı kastediyoruz. Veri kümesi yanlılığı, eğitim verileri modellemesi amaçlanan gerçek dünya çeşitliliğini yeterince yansıtmadığında ortaya çıkar.
Bilgisayarlı görü modelleri dünyayı anlamaz. Desenleri anlarlar. Gördükleri tek köpek resimleri arka bahçelerdeki golden retriever'lar ise, karlı bir parkurda bir husky'yi tanımayabilirler.
Şekil 1. Kaynak verilerin yeniden ağırlıklandırılması, daha iyi model doğruluğu elde etmeye yardımcı olur.
Bu, veri kümesi yanlılığının neden olduğu temel zorluklardan birini vurgulamaktadır. Model, gösterilenlere göre bir anlayış oluşturur. Bu eğitim verileri gerçek dünya çeşitliliğini yansıtmazsa, modelin davranışı daralır ve alışılmadık koşullarda daha az etkili olur.
Görüntü sınıflandırıcıları, aynı görev için oluşturulmuş olsalar bile, eğitildikleri veri kümesinden farklı bir veri kümesi üzerinde test edildiğinde genellikle önemli ölçüde daha kötü performans gösterir. Aydınlatma, arka planlar veya kamera açılarındaki küçük değişiklikler bile doğrulukta gözle görülür düşüşlere yol açabilir. Bu, veri kümesi yanlılığının bir modelin genelleme yeteneğini ne kadar kolay etkileyebileceğini gösterir.
Bunlar uç durumlar değil. Veri hattınızın model mimariniz kadar önemli olduğunun sinyalleridir.
Yapay zeka eğitim verilerindeki yanlılık türleri
Yanlılık, geliştirme sürecinde veri toplama, etiketleme veya düzenleme sırasında sıklıkla ince şekillerde görülebilir. Aşağıda, eğitim verilerinizi etkileyebilecek üç ana yanlılık türü bulunmaktadır:
Seçim yanlılığı
Seçim yanlılığı, veri kümesi gerçek dünyadaki çeşitliliği temsil etmediğinde ortaya çıkabilir. Bir yaya algılama modeli yalnızca açık, gündüz görüntüleri üzerinde eğitilirse, gece veya sisli havalarda iyi performans göstermez. Bu nedenle, seçim süreci önemli durumları kaçırmıştır.
Şekil 2. Sadece çeşitli olmayan bir alt kümenin seçildiği seçim yanlılığının görsel bir temsili.
Bu önyargı, verilerin nasıl toplandığı nedeniyle veri kümesinin gerçek dünya senaryolarının tamamını yakalayamadığı durumlarda ortaya çıkar. Örneğin, yalnızca açık ve gündüz çekilmiş görüntülerle eğitilmiş bir yaya algılama modeli, sis, kar veya düşük ışıkta başarısız olabilir. Bu durum genellikle verilerin ideal veya uygun koşullar altında toplandığı ve modelin çeşitli ortamlarda performans gösterme yeteneğini sınırladığı durumlarda meydana gelir. Veri toplama çabalarını daha çeşitli ortamları içerecek şekilde genişletmek, bu tür önyargıları azaltmaya yardımcı olur.
Ayrıca, içeriğin belirli konumlara, dillere veya sosyoekonomik bağlamlara doğru ağır bir şekilde eğildiği çevrimiçi kaynaklardan oluşturulan veri kümelerinde de ortaya çıkabilir. Veri kümesini çeşitlendirmek için kasıtlı bir çaba gösterilmezse, model bu sınırlamaları devralacaktır.
Etiket önyargısı
Etiket yanlılığı, insan etiketleyiciler yanlış veya tutarsız etiketler uyguladığında ortaya çıkar. Yanlış bir etiket zararsız görünse de, sık sık olursa, model yanlış ilişkileri öğrenmeye başlar.
Tutarsız etiketleme, özellikle nesne algılama gibi karmaşık görevlerde, eğitim sırasında modeli şaşırtabilir. Örneğin, bir etiketleyici bir aracı "araba" olarak etiketlerken, bir diğeri benzer bir aracı "kamyon" olarak etiketleyebilir. Bu tutarsızlıklar, modelin güvenilir kalıpları öğrenme yeteneğini etkiler ve çıkarım sırasında doğruluğun azalmasına neden olur.
Şekil 3. Veri işleme hatlarındaki önyargı, gerçek dünyadaki dengesizliklerden kaynaklanır.
Etiket önyargısı, belirsiz etiketleme yönergelerinden veya aynı verinin farklı yorumlanmasından da kaynaklanabilir. İyi belgelenmiş etiketleme standartları oluşturmak ve kalite kontrolü yapmak bu zorlukları önemli ölçüde azaltabilir.
Etiketleyiciler için devam eden eğitim ve birden fazla etiketleyicinin her örneği incelediği fikir birliği etiketlemesinin kullanılması, etiket önyargısını en aza indirmek ve veri kümesi kalitesini iyileştirmek için iki etkili stratejidir.
Temsil yanlılığı
Temsil yanlılığı genellikle daha geniş toplumsal eşitsizlikleri yansıtır. Daha zengin veya daha bağlantılı bölgelerde toplanan veriler, daha az temsil edilen popülasyonların veya ortamların çeşitliliğini yakalayamayabilir. Bu yanlılığı gidermek, gözden kaçan grupların ve bağlamların kasıtlı olarak dahil edilmesini gerektirir.
Temsil yanlılığı, belirli grupların veya sınıfların veri kümesinde yeterince temsil edilmemesi durumunda ortaya çıkar. Bunlar demografik grupları, nesne kategorilerini veya çevresel koşulları içerebilir. Bir model yalnızca bir cilt tonu, bir nesne türü veya bir arka plan stili görürse, tahminleri bu dengesizliği yansıtacaktır.
Bu tür bir yanlılığı, belirli gruplar veya kategoriler diğerlerinden çok daha küçük miktarlarda dahil edildiğinde gözlemleyebiliriz. Bu, modelin tahminlerini veri kümesindeki baskın örneklere doğru kaydırabilir. Örneğin, öncelikle tek bir demografik yapı üzerinde eğitilmiş bir yüz tanıma modeli, tüm kullanıcılarda doğru bir şekilde performans göstermekte zorlanabilir. Veri çeşitliliğine bağlı olan seçim yanlılığının aksine, temsil yanlılığı gruplar arasındaki dengeyi ilgilendirir.
Çeşitlilik denetimleri ve hedeflenmiş veri genişletme stratejileri, ilgili tüm demografik özelliklerin ve kategorilerin eğitim veri kümesinde düzgün bir şekilde temsil edilmesini sağlamaya yardımcı olabilir.
Veri kümesi yanlılığını nasıl tespit edip azaltabiliriz
Gerçek dünya dağıtımlarında, yapay zeka önyargısı sadece birkaç yanlış tahmin anlamına gelmez. Bazı insanlar için iyi çalışan ancak herkes için çalışmayan sistemlere neden olabilir.
Otomotiv yapay zekasında, algılama modelleri yaya grupları arasında tutarsız performans gösterebilir ve bu da yeterince temsil edilmeyen bireyler için daha düşük güvenlik sonuçlarına yol açabilir. Sorun modelin niyeti değil. Üzerinde eğitildiği görsel girdilerdir. Tarımda bile, nesne algılamadaki önyargı, farklı aydınlatma veya hava koşulları altında mahsullerin kötü tanımlanması anlamına gelebilir. Bunlar, modelleri sınırlı veya dengesiz veri kümeleri üzerinde eğitmenin yaygın sonuçlarıdır.
Yapay zeka önyargısını düzeltmek nereye bakılacağını bilmekle başlar. Eğitim setinizde önemli örnekler eksikse veya dar bir aralığı aşırı temsil ediyorsa, modeliniz bu boşlukları yansıtacaktır. Bu nedenle yapay zekada önyargı tespiti, her geliştirme hattında kritik bir adımdır.
Şekil 4. Yapay zeka önyargısını azaltma ve adaleti iyileştirme konusunda temel adımlar.
Veri kümenizi analiz ederek başlayın. Sınıflar, ortamlar, aydınlatma, nesne ölçekleri ve demografik özellikler arasındaki dağılıma bakın. Bir kategori baskınsa, modeliniz diğerlerinde muhtemelen düşük performans gösterecektir.
Ardından, performansa bakın. Model, belirli ayarlarda veya belirli nesne türleri için daha mı kötü performans gösteriyor? Eğer öyleyse, bu öğrenilmiş bir önyargının işaretidir ve genellikle verileri işaret eder.
Dilim seviyesinde değerlendirme çok önemlidir. Bir model ortalama %90 doğruluk oranı bildirebilir, ancak belirli bir grup veya koşulda bu oran yalnızca %60 olabilir. Bu dilimleri kontrol etmeden bunu asla bilemezsiniz.
Eğitim ve değerlendirme sırasında adalet metriklerini kullanmak bir diğer güçlü araçtır. Bu metrikler, standart doğruluk puanlarının ötesine geçer ve modelin farklı veri alt kümelerinde nasıl davrandığını değerlendirir. Aksi takdirde fark edilmeyebilecek kör noktaları ortaya çıkarmaya yardımcı olurlar.
Veri kümesi kompozisyonundaki ve model testindeki şeffaflık, daha iyi modellere yol açar.
Veri çeşitliliği ve artırımı yoluyla adaleti iyileştirme
Önyargıyı belirledikten sonraki adım, boşluğu kapatmaktır. Bunu yapmanın en etkili yollarından biri, yapay zeka modellerinde veri çeşitliliğini artırmaktır. Bu, farklı popülasyonlardan tıbbi görüntüler veya olağandışı çevresel koşullar olsun, yetersiz temsil edilen senaryolardan daha fazla örnek toplamak anlamına gelir.
Daha fazla veri eklemek, özellikle çeşitliliği artırdığında değerli olabilir. Ancak, adaleti iyileştirmek aynı zamanda doğru türde örnekler toplamaya da bağlıdır. Bunlar, modelinizin karşılaşma olasılığı olan gerçek dünya varyasyonunu yansıtmalıdır.
Veri artırma, değerli bir diğer stratejidir. Nesneleri çevirmek, döndürmek, aydınlatmayı ayarlamak ve ölçeklendirmek, farklı gerçek dünya koşullarını simüle etmeye yardımcı olabilir. Artırma yalnızca veri kümesi çeşitliliğini artırmakla kalmaz, aynı zamanda modelin görünüm, aydınlatma ve bağlamdaki değişikliklere karşı daha sağlam hale gelmesine de yardımcı olur.
Çoğu modern eğitim hattı varsayılan olarak artırma içerir, ancak görev odaklı ihtiyaçlara göre ayarlamaya odaklanmak gibi stratejik kullanım, onu adalet için etkili kılar.
Boşlukları doldurmak için sentetik veri kullanma
Sentetik veri, gerçek dünya örneklerini taklit eden yapay olarak oluşturulmuş verileri ifade eder. Bazı senaryoların yakalanması çok nadir veya çok hassas olduğunda faydalı bir araç olabilir.
Örneğin, makinelerdeki nadir kusurları veya uç durum trafik ihlallerini tespit etmek için bir model oluşturuyorsanız, sentetik veriler kullanarak bu durumları simüle edebilirsiniz. Bu, modelin eğitim setinizde sık karşılaşmayabileceği olaylardan öğrenme fırsatı verir.
Çalışmalar, eğitime hedeflenmiş sentetik veri eklemenin, veri kümesi önyargısını azaltabileceğini ve demografik gruplar ve ortamlar genelinde performansı artırabileceğini bulmuştur.
Sentetik veri, gerçek dünya örnekleriyle eşleştirildiğinde en iyi performansı gösterir. Veri kümenizi tamamlar; onun yerini almaz.
YOLO11 etik yapay zekayı nasıl destekler?
Tarafsız yapay zeka modelleri oluşturmak da kullandığınız araçlara bağlıdır. YOLO11, esnek, ince ayar yapılması kolay ve son derece uyarlanabilir olacak şekilde tasarlanmıştır, bu da onu veri kümesi yanlılığını azaltmak için güçlü bir uyum haline getirir.
YOLO11, modelin genellemesini iyileştirmek ve aşırı öğrenmeyi azaltmak için çeşitli görüntü bağlamları ve harmanlanmış örnekler sunan, modeli eğitirken gelişmiş veri artırma tekniklerini destekler.
YOLO11 ayrıca daha etkili özellik çıkarımı için geliştirilmiş bir omurga ve boyun mimarisine sahiptir. Bu yükseltme, modelin ince ayrıntıları algılama yeteneğini artırır; bu, standart modellerin zorlanabileceği yetersiz temsil edilen veya uç durum senaryolarında kritik öneme sahiptir.
YOLO11'in yeniden eğitilmesi ve uç ile bulut ortamlarında konuşlandırılması kolay olduğundan, ekipler performans boşluklarını belirleyebilir ve sahada bir önyargı keşfedildiğinde modeli hızla güncelleyebilir.
Adil Yapay Zeka tek seferlik bir hedef değildir. Değerlendirme, öğrenme ve uyum döngüsüdür. YOLO11 gibi araçlar bu döngüyü daha hızlı ve daha verimli hale getirmeye yardımcı olur.
Önemli çıkarımlar
Yapay zeka önyargısı, adaletten performansa kadar her şeyi etkiler. Bilgisayarlı görü önyargısı genellikle veri kümelerinin nasıl toplandığı, etiketlendiği ve dengelendiğinden kaynaklanır. Neyse ki, bunu tespit etmenin ve azaltmanın kanıtlanmış yolları vardır.
Verilerinizi denetleyerek ve model performansını farklı senaryolarda test ederek başlayın. Daha iyi eğitim kapsamı oluşturmak için hedeflenmiş veri toplama, artırma ve sentetik veriler kullanın.
YOLO11, özel modelleri eğitme, güçlü artırma teknikleri uygulama ve önyargı bulunduğunda hızlı yanıt verme işlemlerini kolaylaştırarak bu iş akışını destekler.
Adil yapay zeka oluşturmak sadece doğru olanı yapmak değildir. Aynı zamanda daha akıllı, daha güvenilir sistemler inşa etmenin de yoludur.