Değerlendiriciler arası güvenilirlik: Tanım, örnekler, hesaplamalar

Abirami Vina

5 dakika okuma

18 Ağustos 2025

Gözlemciler arası güvenilirlik, Cohen's Kappa, ICC, eğitim oranı ve uyum yüzdesini anlayın. Bu istatistiksel ölçümlerin araştırma ve veri analizinde gözlemciler arasında tutarlılığı ve uyumu nasıl sağladığını öğrenin.

Bir yapay zeka modeli oluştururken, verilerinizin kalitesi en az arkasındaki algoritmalar kadar önemlidir. Birden fazla kişi aynı verileri etiketlediğinde veya incelediğinde, anlaşmazlıkların olması kaçınılmazdır. Bu durum araştırma, sağlık ve eğitim dahil olmak üzere birçok alanda geçerlidir.

Özellikle, Ultralytics YOLO11 gibi modellerin görüntü veya video gibi görsel verileri yorumlamak için eğitilmesini içeren bir yapay zeka dalı olan bilgisayarla görmede, etiketli örnekler çok önemli bir rol oynamaktadır. Bu etiketler tutarsızsa, bilgisayarla görme modelleri doğru kalıpları öğrenmekte zorlanabilir.

Değerlendiriciler arası güvenilirlik (IRR), farklı bireylerin veya etiketleyicilerin bir görev üzerinde ne kadar tutarlı bir şekilde anlaştıklarını ölçer. Tutarlılığın izlenmesine ve eğitim, kılavuzlar veya yorumlamadaki boşlukların belirlenmesine yardımcı olur. Bu, özellikle yapay zeka modellerinin belirli bir amaç için belirli veriler kullanılarak oluşturulduğu özel model eğitiminde önemlidir.

Bu makalede, değerlendiriciler arası güvenilirliğin ne olduğunu, nasıl ölçüleceğini ve gerçek dünya projelerinde nasıl geliştirileceğini inceleyeceğiz. Hadi başlayalım!

Değerlendiriciler arası güvenilirlik nedir?

Değerlendiriciler arası güvenilirlik, iki veya daha fazla kişinin (değerlendirici olarak da bilinir) aynı içeriği etiketlerken, derecelendirirken veya incelerken ne sıklıkla hemfikir olduğunu ölçer. Farklı değerlendiricilerin verilen kriterleri ne kadar tutarlı kullandıklarını kontrol etmek için kullanılır. Değerlendiriciler arasındaki yüksek uyum, bir görevin iyi tanımlandığı ve açıkça anlaşıldığı anlamına gelir.

Bu kavram farklı alanlarda kullanılmaktadır. Alana bağlı olarak, değerlendiriciler arası uyum, gözlemciler arası güvenilirlik veya kodlayıcılar arası güvenilirlik gibi farklı isimlerle bilinir. Ancak, temel prensip aynı kalmaktadır.

Görme Yapay Zekasında, değerlendiriciler arası güvenilirlik veri etiketleme sürecinin önemli bir parçasıdır. Bilgisayarla görme modellerinin eğitilmesi genellikle görüntü veya video karelerinden oluşan devasa veri kümelerinin etiketlenmesini gerektirir, bu nedenle birden fazla yapay zeka geliştiricisi aynı veriler üzerinde birlikte çalışır.

Doğru sonuçlar elde etmek için aynı etiketleme kurallarına uymaları gerekir. Örneğin, hayvanları etiketlerken, herkesin neyin köpek sayılacağı, etrafındaki sınırlayıcı kutunun nasıl çizileceği ve bulanık nesnelerin etiketlenip etiketlenmeyeceği konusunda net bir anlaşmaya ihtiyacı vardır.

Şekil 1. Değerlendiriciler arası güvenilirliği anlamak (Resim yazara aittir)

Değerlendiriciler arası ve değerlendirici içi güvenilirlik ve test-tekrar test güvenilirliği

İnsanlar verilerin etiketlenmesi veya puanlanmasında yer aldığında, dikkate alınması gereken üç ana güvenilirlik türü vardır. Her biri, sonuçların ne kadar tutarlı olduğunu ölçmede farklı bir amaca hizmet eder. İşte her birine daha yakından bir bakış:

  • Değerlendiriciler arası güvenilirlik: Değerlendiriciler arası güvenilirlik, aynı görevi gerçekleştiren farklı kişiler arasında ne kadar uyum olduğuna bakar. Bu, özellikle görüntü etiketleme, duygu analizi veya tıbbi incelemeler gibi projelerde birden fazla yorumcu yer aldığında kullanışlıdır.
  • Değerlendiriciler arası güvenilirlik: Odağı tek bir kişiye kaydırır. Değerlendirici içi güvenilirlik, değerlendiricinin aynı görevi zaman içinde farklı noktalarda tekrarlarken tutarlı kalıp kalmadığını kontrol eder. Etiketler çok fazla değişiyorsa, bu net olmayan yönergelerin veya görev netliğinin eksikliğinin bir sonucu olabilir.
  • Test-tekrar test güvenilirliği: Test-tekrar test güvenilirliği yorumlayıcıya değil kullanılan araç veya yönteme odaklanır. Test benzer koşullar altında tekrarlandığında aynı sonucun ortaya çıkıp çıkmadığını ölçer. Çıktı tutarlı kalırsa, yöntem güvenilir kabul edilir. 

Bu önlemler birlikte, hem insanların hem de süreçlerin istikrarlı ve güvenilir sonuçlar ürettiğini doğrulamaya yardımcı olur.

Şekil 2. Değerlendiriciler arası, değerlendirici içi ve test-tekrar test güvenilirliğine genel bir bakış (Resim yazara aittir)

Değerlendiriciler arası güvenilirlik neden önemlidir?

Büyük ölçekli Vision AI projelerinde, etiketlenmiş verilerin kalitesi bir modelin ne kadar iyi performans gösterdiğini doğrudan etkiler. Açıklayıcıların yönergeleri uygulama biçimindeki küçük farklılıklar bile eğitim sırasında modelin kafasını karıştıran tutarsızlıklara yol açabilir. Bu durum zaman içinde yanlış tahminlere, kaynak israfına ve yüksek maliyetli yeniden etiketleme ihtiyacına yol açabilir.

Değerlendiriciler arası güvenilirliğin ölçülmesi bu sorunların erkenden tespit edilmesine yardımcı olur. Yüksek uyum, yorumcuların uyumlu olduğu, daha temiz ve daha güvenilir veri kümeleri ürettiği anlamına gelir. Düşük uyum, proje ilerlemeden önce talimatların, örneklerin veya eğitimin iyileştirilmesi gerekebileceğine işaret eder. Ekipler, etiketleyicilerin senkronize çalışmasını sağlayarak daha etkili öğrenen ve gerçek dünya uygulamalarında daha iyi sonuçlar veren yapay zeka modelleri oluşturabilir.

Değerlendiriciler arası güvenilirlik için pratik hususlar

Birden fazla puanlayıcı ile çalışırken ve puanlayıcılar arası güvenilirliği yüksek tutmayı hedeflerken akılda tutulması gereken bazı temel pratik hususlar aşağıda verilmiştir:

  • Belirsiz veya öznel görevler: Bulanık bir nesnenin yaya olup olmadığına karar vermek veya bir görüntünün kalitesini değerlendirmek gibi etiketleme yorumlama içerdiğinde, birden fazla değerlendirici kararların tutarlı olmasını ve bireysel önyargılardan aşırı derecede etkilenmemesini sağlamaya yardımcı olur.

  • Basit, objektif görevler: Bir görüntüdeki arabaların sayısını saymak veya bir nesnenin mevcut olup olmadığını doğrulamak gibi basit görevler genellikle sadece iyi eğitimli bir değerlendirici gerektirir, çünkü süreç net bir şekilde tanımlandığında anlaşma genellikle yüksektir.

  • Açık etiketleme yönergeleri: Ayrıntılı, takip etmesi kolay talimatlar etiketlerin nasıl uygulandığına dair belirsizliği azaltır, bu da değerlendiriciler arasındaki uyumu artırır. Kılavuzlar, tutarsız yorumlamaları önlemek için uç durumları açıkça kapsamalıdır.

  • Periyodik eğitim ve kalibrasyon: Deneyimli değerlendiriciler bile zaman içinde yargılarında sapma gösterebilir. Düzenli eğitim oturumları ve kalibrasyon kontrolleri tutarlılığın korunmasına ve deneyci yanlılığının en aza indirilmesine yardımcı olur.

Değerlendiriciler arası güvenilirlik ölçümleri

Değerlendiriciler arası güvenilirliği ölçmenin çeşitli yolları vardır ve en iyi seçim veri ve görev türüne bağlıdır. Bazı yöntemler basit evet-hayır sorularını ele alan tek değerlendiriciler için iyi sonuç verirken, diğerleri birden fazla değerlendiricinin yer aldığı durumlar için tasarlanmıştır.

Yaygın yaklaşımlar arasında uyum yüzdesi, Cohen'in Kappa'sı, Fleiss'in Kappa'sı ve sınıf içi korelasyon katsayısı yer alır. Her yöntem değerlendiriciler arasındaki uyum düzeyini ölçer ve bazı uyumların tesadüfen ortaya çıkma olasılığını hesaba katar.

Cohen'in Kappa'sı ve Fleiss'in Kappa'sı

Cohen's Kappa, iki değerlendirici arasındaki değerlendiriciler arası güvenilirliği ölçmek için yaygın olarak kullanılan bir yöntemdir. Bir görev üzerinde ne sıklıkta anlaştıklarını hesaplarken, bazı anlaşmaların tesadüfen meydana gelme olasılığını ayarlar. Puanlar -1 ile 1 arasında değişir; 1 mükemmel uyumu gösterirken 0 ise uyumun rastgele tahminden daha iyi olmadığı anlamına gelir.

Benzer şekilde Fleiss' Kappa da ikiden fazla değerlendirici söz konusu olduğunda kullanılır. Grubun ne kadar tutarlı olduğunu gösteren genel bir puan sağlar. Her iki yöntem de görüntüleri etiketleme veya duyguları etiketleme gibi belirli kategorilere sahip görevler için kullanılır. Hesaplanmaları kolaydır ve çoğu açıklama aracı tarafından desteklenirler.

Uyum yüzdesi ve sınıf içi korelasyon katsayısı (ICC)

Değerlendiriciler arası güvenilirliği ölçmenin bir başka yolu da değerlendiricilerin aynı kararı verme yüzdesini hesaplayan uyum yüzdesidir. Kullanımı basit olmakla birlikte, tesadüfen oluşabilecek uyumu hesaba katmaz.

Bu arada, sınıf içi korelasyon katsayısı sürekli veya ölçek tabanlı veriler için kullanılan daha gelişmiş bir yöntemdir. Derecelendirmelerin birden fazla değerlendirici arasında ne kadar tutarlı olduğunu ölçer ve genellikle puanlar, ölçümler veya sabit kategorilerin ötesinde diğer veri türlerini içeren araştırmalarda uygulanır.

Değerlendiriciler arası güvenilirlik örnekleri ve uygulamaları

Değerlendiriciler arası güvenilirliğin nasıl ölçüleceğini artık daha iyi anladığımıza göre, bu yöntemlerin gerçek dünya uygulamalarında nasıl kullanılabileceğini inceleyelim.

Tıbbi görüntüleme açıklamalarında değerlendiriciler arası güvenilirlik

Tıbbi görüntüleme söz konusu olduğunda, yorumlamadaki küçük farklılıklar bile sonuçlarda önemli değişikliklere yol açabilir. Örneğin, radyologlardan genellikle ince, belirsiz veya tanımlanması zor desenleri tanımlamaları istenir. Bu desenler yapay zeka sistemleri için eğitim verisi haline geldiğinde, riskler daha yüksektir. Uzmanlar aynı taramayı farklı şekilde etiketlerse, model yanlış kalıpları öğrenebilir veya tamamen öğrenemeyebilir.

Değerlendiriciler arası güvenilirlik, bu tür verilerle uğraşan ekiplerin uzman yargılarının gerçekten ne kadar tutarlı olduğunu değerlendirmelerine yardımcı olur. Örneğin, retinal OCT taramalarına odaklanan yakın tarihli bir çalışmada, iki değerlendirici 500 görüntüyü etiketledi. 

Drusen (retinanın altındaki sarı birikintiler) gibi net özellikler için uyum 0,87 kappa skoru ile yüksekti. Ancak hiperreflektif odaklar (retina taramalarında görülen küçük, parlak noktalar) gibi tanımlanması daha zor unsurlar için skor 0,33'e düşmüştür. Bu, daha net, daha iyi tanımlanmış özelliklerin daha tutarlı uzman yargıları üretme eğiliminde olduğunu, belirsiz olanların ise yoruma daha fazla yer bıraktığını göstermektedir.

Şekil 3. Retina hastalıklarıyla ilgili farklı özellikler için etiket örnekleri(Kaynak)

Otonom araç veri kümeleri ve değerlendiriciler arası güvenilirlik

Otonom sürüş sistemi için yapay zeka modellerinin eğitilmesi, çok çeşitli yol koşullarında doğru ve tutarlı etiketlere bağlıdır. Bu tür projelerde çalışan yorumlayıcılardan genellikle zayıf aydınlatma veya kalabalık sahnelerde yayaları, araçları, trafik işaretlerini ve şerit işaretlerini tanımlamaları istenir. 

Bu kararlar, modelin zorlu gerçek dünya ortamlarında nasıl tepki vermeyi öğreneceğini şekillendirir. Değerlendiriciler arası güvenilirlik, ekiplerin bu etiketlerin yorumcular arasında aynı şekilde uygulanıp uygulanmadığını kontrol etmesini mümkün kılar. 

Şekil 4. Ek açıklama anlaşmazlıklarına bir bakış(Kaynak)

Değerlendiriciler arası güvenilirliğin ötesinde: Diğer kalite güvence önlemleri

Değerlendiriciler arası güvenilirliği ölçmek bir yapay zeka çözümü oluşturmada çok önemli bir adım olsa da, daha geniş bir kalite güvence sürecinin bir parçasıdır. Ekipler ve projeler genelinde veri kalitesini artırmaya yardımcı olabilecek diğer bazı uygulamaları aşağıda bulabilirsiniz:

  • Açık açıklama yönergeleri: Talimatlar, etiketlerin nasıl uygulanacağını tam olarak açıklamalıdır, böylece herkes aynı standartta çalışır.

  • Eğitim ve kalibrasyon: Düzenli oturumlar, yorumlayıcıların uyumlu kalmasına yardımcı olur ve onlara soru sormaları ve uç durumlara uyum sağlamaları için alan sağlar.

  • Devam eden kalite kontrolleri: Spot kontroller ve altın standart örnekler hataları erkenden yakalayabilir ve proje ölçeklendikçe kaliteyi yüksek tutabilir.

  • Anlaşmazlıkların çözümü: Açıklayıcılar aynı fikirde olmadığında, bu vakaları gözden geçirmek ve nihai kararları vermek için açık bir süreç olmalıdır.

  • Farklı yorumlayıcı havuzu: Farklı geçmişlere sahip insanları dahil etmek önyargıyı azaltabilir ve veri setinin gerçek dünyadaki varyasyonu ne kadar iyi temsil ettiğini iyileştirebilir.

Önemli çıkarımlar

Değerlendiriciler arası güvenilirlik, insanların etiketleri ne kadar tutarlı bir şekilde uyguladıklarını veya karar verdiklerini ölçer. Cohen's Kappa, Fleiss's Kappa ve ICC gibi yöntemler bu uyumu ölçmeye yardımcı olur. Net yönergeler, eğitim ve yanlılık kontrolü ile güvenilir açıklamalar daha güçlü veriler ve daha iyi model sonuçları sağlar.

Topluluğumuza katılın ve yapay zeka hakkında daha fazlasını keşfetmek için GitHub depomuzu keşfedin. Kendi Vision AI projenizi başlatmak istiyorsanız lisanslama seçeneklerimize göz atın. Ayrıca çözümler sayfalarımızı ziyaret ederek sağlık hizmetlerinde yapay zeka ve perakende sektöründe yapay zekanın nasıl bir etki yarattığını görebilirsiniz.

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı