Derecelendirmeler Arası Güvenilirlik (Inter-rater Reliability) Nedir: Tanım, Cohen Kappa Katsayısı ve daha fazlası

Bir yapay zeka modeli oluştururken, verilerinizin kalitesi arkasındaki algoritmalar kadar önemlidir. Birden fazla kişi aynı veriyi etiketlediğinde veya incelediğinde, anlaşmazlıklar yaşanması kaçınılmazdır. Bu, araştırma, sağlık hizmetleri ve eğitim dahil olmak üzere birçok alanda geçerlidir.

Özellikle, yapay zekanın bir dalı olan bilgisayarla görmede, aşağıdaki gibi modellerin eğitilmesini içerir Ultralytics YOLO11 Görüntüler veya videolar gibi görsel verileri yorumlamak için etiketli örnekler çok önemli bir rol oynar. Bu etiketler tutarsızsa, bilgisayarla görme modelleri doğru kalıpları öğrenmekte zorlanabilir.

Derecelendirmeciler arası güvenilirlik (IRR), farklı bireylerin veya etiketleyicilerin bir görev üzerinde ne kadar tutarlı bir şekilde anlaştığını ölçer. Tutarlılığı izlemeye ve eğitim, yönergeler veya yorumlamadaki boşlukları belirlemeye yardımcı olur. Bu, özellikle belirli bir amaç için özel veriler kullanılarak oluşturulan yapay zeka modellerinin özel model eğitiminde önemlidir.

Bu makalede, gözlemciler arası güvenilirliğin ne olduğunu, nasıl ölçüldüğünü ve gerçek dünya projelerinde nasıl geliştirilebileceğini inceleyeceğiz. Hadi başlayalım!

Derecelendirmeler arası güvenilirlik (inter-rater reliability) nedir?

Derecelendirmeciler arası güvenilirlik, aynı içeriği etiketlerken, derecelendirirken veya incelerken iki veya daha fazla kişinin (derecelendiriciler olarak da bilinir) ne sıklıkla aynı fikirde olduğunu ölçer. Farklı derecelendiricilerin belirli kriterleri ne kadar tutarlı kullandığını kontrol etmek için kullanılır. Derecelendiriciler arasındaki yüksek uyum, bir görevin iyi tanımlandığı ve açıkça anlaşıldığı anlamına gelir.

Bu kavram farklı alanlarda kullanılmaktadır. Alana bağlı olarak, kişiler arası uyum, gözlemciler arası güvenilirlik veya kodlayıcılar arası güvenilirlik gibi farklı isimlerle bilinir. Ancak, temel prensip aynı kalır.

Görüntü İşleme Yapay Zekasında, gözlemciler arası güvenilirlik, veri etiketleme sürecinin önemli bir parçasıdır. Bilgisayar görüşü modellerini eğitmek genellikle büyük görüntü veya video karesi veri kümelerinin etiketlenmesini gerektirir, bu nedenle birden fazla yapay zeka geliştiricisi aynı veriler üzerinde birlikte çalışır.

Doğru sonuçlar elde etmek için, aynı etiketleme yönergelerini izlemeleri gerekir. Örneğin, hayvanları etiketlerken, herkesin neyin köpek sayıldığı, etrafına sınırlayıcı kutunun nasıl çizileceği ve bulanık nesnelerin etiketlenip etiketlenmeyeceği veya yok sayılacağı konusunda net bir anlaşmaya ihtiyacı vardır.

Şekil 1. Derecelendirmeler arası güvenilirliği anlama (Yazarın görseli)

‍

Derecelendirmeciler arası ve derecelendirici içi güvenilirlik ile test-tekrar test güvenilirliği

İnsanlar verileri etiketleme veya puanlama işlemine dahil olduğunda, dikkate alınması gereken üç ana güvenilirlik türü vardır. Her biri, sonuçların ne kadar tutarlı olduğunu ölçmede farklı bir amaca hizmet eder. İşte her birine daha yakından bir bakış:

Derecelendirmeler arası güvenilirlik: Derecelendirmeler arası güvenilirlik, aynı görevi gerçekleştiren farklı kişiler arasında ne kadar anlaşma olduğuna bakar. Bu, özellikle görüntü etiketleme, duygu analizi veya tıbbi incelemeler gibi projelere birden fazla etiketleyici dahil olduğunda kullanışlıdır.

Derecelendirme içi güvenilirlik: Odak noktasını tek bir kişiye kaydırır. Derecelendirme içi güvenilirlik, derecelendiricinin aynı görevi farklı zamanlarda tekrarlarken tutarlı olup olmadığını kontrol eder. Etiketler çok fazla değişirse, bunun nedeni belirsiz yönergeler veya görev netliğinin olmaması olabilir.

Test-tekrar test güvenirliği: Test-tekrar test güvenirliği, açıklayıcıya değil, kullanılan araç veya yönteme odaklanır. Test benzer koşullar altında tekrarlandığında aynı sonucun görünüp görünmediğini ölçer. Çıktı tutarlı kalırsa, yöntem güvenilir olarak kabul edilir.

Bu önlemler birlikte, hem insanların hem de süreçlerin istikrarlı, güvenilir sonuçlar ürettiğini doğrulamaya yardımcı olur.

Şekil 2. Gözlemciler arası, gözlemci içi ve test-tekrar test güvenilirliğine genel bakış (Görüntü: yazar)

‍

Derecelendirmeler arası güvenilirlik neden önemlidir?

Büyük ölçekli Görüntü Yapay Zeka projelerinde, etiketlenmiş verilerin kalitesi, bir modelin ne kadar iyi performans gösterdiğini doğrudan etkiler. Etiketleyicilerin yönergeleri uygulama biçimindeki küçük farklılıklar bile, eğitim sırasında modeli şaşırtan tutarsızlıklar ortaya çıkarabilir. Zamanla bu, yanlış tahminlere, boşa harcanan kaynaklara ve maliyetli yeniden etiketleme ihtiyacına yol açabilir.

Derecelendiriciler arası güvenilirliği ölçmek, bu sorunları erken tespit etmeye yardımcı olur. Yüksek uyum, etiketleyicilerin uyumlu olduğu, daha temiz ve daha güvenilir veri kümeleri ürettiği anlamına gelir. Düşük uyum, projenin ilerlemeden önce talimatların, örneklerin veya eğitimin iyileştirilmesi gerekebileceğinin sinyalini verir. Etiketleyicilerin senkronize çalışmasını sağlayarak, ekipler daha etkili öğrenen ve gerçek dünya uygulamalarında daha iyi sonuçlar veren yapay zeka modelleri oluşturabilir.

Derecelendirmeler arası güvenilirlik için pratik hususlar

Birden fazla derecelendiriciyle çalışırken ve yüksek derecelendiriciler arası güvenilirliği korumayı hedeflerken akılda tutulması gereken bazı önemli pratik hususlar şunlardır:

Belirsiz veya öznel görevler: Etiketleme, bulanık bir nesnenin yaya olup olmadığına karar vermek veya bir görüntünün kalitesini değerlendirmek gibi yorumlama içerdiğinde, birden fazla derecelendirici kararların tutarlı olmasını ve bireysel önyargıdan aşırı etkilenmemesini sağlamaya yardımcı olur.
Basit, objektif görevler: Bir görüntüdeki araba sayısını saymak veya bir nesnenin mevcut olup olmadığını doğrulamak gibi basit görevler genellikle yalnızca iyi eğitilmiş bir derecelendirici gerektirir, çünkü süreç açıkça tanımlandığında anlaşma genellikle yüksektir.
Açık etiketleme yönergeleri: Ayrıntılı, kolayca takip edilebilen talimatlar, etiketlerin nasıl uygulanacağına dair belirsizliği azaltır, bu da değerlendiriciler arasındaki uyumu artırır. Yönergeler, tutarsız yorumları önlemek için uç durumları açıkça kapsamalıdır.
Periyodik eğitim ve kalibrasyon: Deneyimli derecelendiriciler bile zamanla yargılarında sapma gösterebilir. Düzenli eğitim oturumları ve kalibrasyon kontrolleri, tutarlılığı korumaya ve deneyci yanlılığını en aza indirmeye yardımcı olur.

Derecelendiriciler arası güvenilirlik ölçütleri

Derecelendirmeler arası güvenilirliği ölçmenin çeşitli yolları vardır ve en iyi seçim veri ve görev türüne bağlıdır. Bazı yöntemler, basit evet-hayır sorularını ele alan tek derecelendirme uzmanı için iyi sonuç verirken, diğerleri birden fazla derecelendirme uzmanının dahil olduğu durumlar için tasarlanmıştır.

Yaygın yaklaşımlar arasında yüzde anlaşması, Cohen’s Kappa, Fleiss’ Kappa ve sınıf içi korelasyon katsayısı bulunur. Her yöntem, değerlendiriciler arasındaki anlaşma düzeyini ölçer ve bazı anlaşmaların şans eseri meydana gelebileceği olasılığını hesaba katar.

Cohen’s Kappa ve Fleiss’ Kappa

Cohen’s Kappa, iki değerlendirici arasındaki değerlendiriciler arası güvenilirliği ölçmek için yaygın olarak kullanılan bir yöntemdir. Bazı anlaşmaların şans eseri meydana gelebileceği olasılığını hesaba katarak, bir görev üzerinde ne sıklıkla anlaştıklarını hesaplar. Puanlar -1 ile 1 arasında değişir; 1 mükemmel anlaşmayı, 0 ise anlaşmanın rastgele tahminlerden daha iyi olmadığını gösterir.

Benzer şekilde, Fleiss'in Kappa'sı ikiden fazla derecelendirici olduğunda kullanılır. Grubun ne kadar tutarlı olduğunu gösteren genel bir puan sağlar. Her iki yöntem de görüntüleri etiketleme veya duyguları etiketleme gibi belirlenmiş kategorilere sahip görevler için kullanılır. Hesaplaması kolaydır ve çoğu etiketleme aracı tarafından desteklenir.

Yüzde anlaşma ve sınıf içi korelasyon katsayısı (ICC)

Derecelendirmeciler arası güvenilirliği ölçmenin bir başka yolu da, derecelendirmecilerin aynı kararı verme yüzdesini hesaplayan yüzde uyumudur. Kullanımı basit olmakla birlikte, şansa bağlı olarak ortaya çıkabilecek uyumu hesaba katmaz.

Bu arada, sınıfiçi korelasyon katsayısı, sürekli veya ölçek tabanlı veriler için kullanılan daha gelişmiş bir yöntemdir. Birden fazla derecelendirici arasındaki derecelendirmelerin ne kadar tutarlı olduğunu ölçer ve genellikle sabit kategorilerin ötesinde puanlar, ölçümler veya diğer veri türlerini içeren araştırmalarda uygulanır.

Derecelendirmeciler arası güvenilirlik örnekleri ve uygulamaları

Derecelendirmeler arası güvenilirliği nasıl ölçeceğimiz konusunda daha iyi bir anlayışa sahip olduğumuza göre, bu yöntemlerin gerçek dünya uygulamalarında nasıl kullanılabileceğini inceleyelim.

Tıbbi görüntüleme etiketlemesinde derecelendirmeciler arası güvenilirlik

Tıbbi görüntüleme söz konusu olduğunda, yorumlamadaki küçük farklılıklar bile sonuçlarda önemli değişikliklere yol açabilir. Örneğin, radyologlardan genellikle ince, belirsiz veya tanımlanması zor kalıpları tanımlamaları istenir. Bu kalıplar yapay zeka sistemleri için eğitim verisi haline geldiğinde, riskler daha da artar. Uzmanlar aynı taramayı farklı şekilde etiketlerse, model yanlış kalıpları öğrenebilir veya hiç öğrenemeyebilir.

Derecelendirmeciler arası güvenilirlik, bu tür verilerle uğraşan ekiplerin uzman kararlarının gerçekte ne kadar tutarlı olduğunu değerlendirmesine yardımcı olur. Örneğin, retina OCT taramalarına odaklanan yakın tarihli bir çalışmada, iki derecelendirici 500 görüntüyü etiketledi.

Drusen (retina altında sarı tortular) gibi belirgin özellikler için uyum yüksek çıktı ve kappa skoru 0,87 oldu. Ancak hiperreflektif odaklar (retina taramalarında görülen küçük, parlak noktalar) gibi tanımlanması daha zor öğeler için skor 0,33'e düştü. Bu, daha net, daha iyi tanımlanmış özelliklerin daha tutarlı uzman kararları üretme eğiliminde olduğunu, belirsiz olanların ise yorumlama için daha fazla alan bıraktığını göstermektedir.

Şekil 3. Retina hastalıkları ile ilgili farklı özellikler için etiket örnekleri (Kaynak)

‍

Otonom araç veri kümeleri ve kişiler arası güvenilirlik

Bir otonom sürüş sistemi için yapay zeka modellerini eğitmek, çok çeşitli yol koşullarında doğru, tutarlı etiketlere bağlıdır. Bu tür projelerde çalışan etiketleyicilerden, genellikle yetersiz aydınlatma veya kalabalık sahnelerde yayaları, araçları, trafik işaretlerini ve şerit işaretlerini tanımlamaları istenir.

Bu kararlar, modelin zorlu gerçek dünya ortamlarında nasıl yanıt vermeyi öğrendiğini şekillendirir. Derecelendirmeler arası güvenilirlik, ekiplerin bu etiketlerin açıklayıcılar arasında aynı şekilde uygulanıp uygulanmadığını kontrol etmesini mümkün kılar.

Şekil 4. Açıklama uyuşmazlıklarına bir bakış (Kaynak)

‍

Derecelendirmeler arası güvenilirliğin ötesinde: Diğer kalite güvence önlemleri

Derecelendirmeler arası güvenilirliği ölçmek bir yapay zeka çözümü oluşturmada çok önemli bir adım olsa da, daha geniş bir kalite güvence sürecinin bir parçasıdır. İşte ekipler ve projeler genelinde veri kalitesini iyileştirmeye yardımcı olabilecek diğer bazı uygulamalar:

Açık etiketleme yönergeleri: Talimatlar, herkesin aynı standarttan çalışması için etiketlerin nasıl uygulanacağını tam olarak açıklamalıdır.
Eğitim ve kalibrasyon: Düzenli oturumlar, etiketleyicilerin uyumlu kalmasına yardımcı olur ve onlara soru sorma ve uç durumlara uyum sağlama alanı verir.
Devamlı kalite kontrolleri: Ani kontroller ve altın standart örnekler, hataları erken yakalayabilir ve proje ölçeklenirken kaliteyi yüksek tutabilir.
Anlaşmazlık çözümü: Etiketleyiciler anlaşamadığında, bu durumları incelemek ve nihai kararlar almak için net bir süreç olmalıdır.
Çeşitli etiketleyici havuzu: Farklı geçmişlere sahip kişileri dahil etmek, önyargıyı azaltabilir ve veri kümesinin gerçek dünya varyasyonunu ne kadar iyi temsil ettiğini iyileştirebilir.

Önemli çıkarımlar

Derecelendirmeciler arası güvenilirlik, insanların etiketleri ne kadar tutarlı uyguladığını veya kararlar aldığını ölçer. Cohen's Kappa, Fleiss' Kappa ve ICC gibi yöntemler, bu anlaşmayı ölçmeye yardımcı olur. Açık yönergeler, eğitim ve önyargı kontrolü ile güvenilir etiketlemeler daha güçlü verilere ve daha iyi model sonuçlarına yol açar.

Topluluğumuza katılın ve yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi Görüntü İşleme Yapay Zeka projenize başlamak istiyorsanız, başlamak için lisanslama seçeneklerimize göz atın. Ayrıca, çözüm sayfalarımızı ziyaret ederek sağlık hizmetlerinde yapay zeka ve perakende sektöründe görüntü işleme yapay zekasının nasıl bir etki yarattığını da görebilirsiniz.

Derecelendirmeciler arası güvenilirlik: Tanım, örnekler, hesaplamalar

Derecelendirmeler arası güvenilirlik (inter-rater reliability) nedir?

Derecelendirmeciler arası ve derecelendirici içi güvenilirlik ile test-tekrar test güvenilirliği

Derecelendirmeler arası güvenilirlik neden önemlidir?

Derecelendirmeler arası güvenilirlik için pratik hususlar

Derecelendiriciler arası güvenilirlik ölçütleri

Cohen’s Kappa ve Fleiss’ Kappa

Yüzde anlaşma ve sınıf içi korelasyon katsayısı (ICC)

Derecelendirmeciler arası güvenilirlik örnekleri ve uygulamaları

Tıbbi görüntüleme etiketlemesinde derecelendirmeciler arası güvenilirlik

Otonom araç veri kümeleri ve kişiler arası güvenilirlik

Derecelendirmeler arası güvenilirliğin ötesinde: Diğer kalite güvence önlemleri

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Monoküler derinlik tahmini nedir? Genel bakış

Görüntü işleme nedir? Kısa bir giriş

Şablon eşleştirme nedir? Hızlı kılavuz

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Derecelendirmeciler arası güvenilirlik: Tanım, örnekler, hesaplamalar

Derecelendirmeler arası güvenilirlik (inter-rater reliability) nedir?

Derecelendirmeciler arası ve derecelendirici içi güvenilirlik ile test-tekrar test güvenilirliği

Derecelendirmeler arası güvenilirlik neden önemlidir?

Derecelendirmeler arası güvenilirlik için pratik hususlar

Derecelendiriciler arası güvenilirlik ölçütleri

Cohen’s Kappa ve Fleiss’ Kappa

Yüzde anlaşma ve sınıf içi korelasyon katsayısı (ICC)

Derecelendirmeciler arası güvenilirlik örnekleri ve uygulamaları

Tıbbi görüntüleme etiketlemesinde derecelendirmeciler arası güvenilirlik

Otonom araç veri kümeleri ve kişiler arası güvenilirlik

Derecelendirmeler arası güvenilirliğin ötesinde: Diğer kalite güvence önlemleri

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Monoküler derinlik tahmini nedir? Genel bakış

Görüntü işleme nedir? Kısa bir giriş

Şablon eşleştirme nedir? Hızlı kılavuz

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!