YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Kılavuzlar

Gözlemciler arası güvenilirlik: Tanım, örnekler, hesaplamalar

Gözlemciler arası güvenilirlik, Cohen'in Kappa'sı, ICC, gözlemci eğitimi ve yüzde uyum konularını anla. Bu istatistiksel ölçümlerin araştırma ve veri analizinde gözlemciler arasında tutarlılığı ve uyumu nasıl sağladığını öğren.

ABAbirami Vina
5 min read
Veri etiketlemede gözlemciler arası güvenilirliği anlama

Bir yapay zeka modeli oluştururken verinin kalitesi, arkasındaki algoritmalar kadar önemlidir. Birden fazla kişi aynı veriyi etiketlediğinde veya incelediğinde anlaşmazlıklar olması kaçınılmazdır. Bu durum araştırma, sağlık ve eğitim gibi pek çok alanda geçerlidir.

Özellikle, bilgisayarlı görü gibi görüntü veya video gibi görsel verileri yorumlamak için Ultralytics YOLO11 gibi modelleri eğitmeyi içeren bir yapay zeka dalında, etiketli örnekler kritik bir rol oynar. Eğer bu etiketler tutarsızsa, bilgisayarlı görü modelleri doğru örüntüleri öğrenmekte zorlanabilir.

Değerlendiriciler arası güvenilirlik (IRR), farklı bireylerin veya etiketleyicilerin bir görev üzerinde ne kadar tutarlı bir şekilde anlaştığını ölçer. Tutarlılığı izlemeye, eğitimdeki, kılavuzlardaki veya yorumlardaki boşlukları belirlemeye yardımcı olur. Bu durum, yapay zeka modellerinin belirli bir amaç doğrultusunda özel veriler kullanılarak oluşturulduğu özel model eğitimlerinde özellikle önemlidir.

Bu makalede değerlendiriciler arası güvenilirliğin ne olduğunu, nasıl ölçüldüğünü ve gerçek dünya projelerinde nasıl geliştirileceğini keşfedeceğiz. Hadi başlayalım!

Link to this sectionDeğerlendiriciler arası güvenilirlik nedir?#

Değerlendiriciler arası güvenilirlik, iki veya daha fazla kişinin (değerlendirici olarak da bilinir) aynı içeriği etiketlerken, puanlarken veya incelerken ne sıklıkta anlaştığını ölçer. Farklı değerlendiricilerin verilen kriterleri ne kadar tutarlı kullandığını kontrol etmek için kullanılır. Değerlendiriciler arasında yüksek bir uyum, bir görevin iyi tanımlandığı ve net bir şekilde anlaşıldığı anlamına gelir.

Bu kavram farklı alanlarda kullanılır. Alana bağlı olarak değerlendiriciler arası uyum, gözlemciler arası güvenilirlik veya kodlayıcılar arası güvenilirlik gibi farklı isimlerle bilinir. Ancak temel prensip aynı kalır.

Görüntü yapay zekasında değerlendiriciler arası güvenilirlik, veri etiketleme sürecinin kilit bir parçasıdır. Bilgisayarlı görü modellerini eğitmek genellikle devasa görüntü veya video karesi veri setlerini etiketlemeyi gerektirir, bu nedenle birden fazla yapay zeka geliştiricisi aynı veri üzerinde birlikte çalışır.

Doğru sonuçlar elde etmek için aynı etiketleme kılavuzlarını izlemeleri gerekir. Örneğin hayvanları etiketlerken herkesin bir köpeğin ne sayılacağı, etrafına sınırlayıcı kutunun (BBox) nasıl çizileceği ve bulanık nesnelerin etiketlenip etiketlenmeyeceği konusunda net bir anlaşmaya varması gerekir.

Değerlendiriciler arası güvenilirliği anlama

Şekil 1. Değerlendiriciler arası güvenilirliği anlama (Görsel: yazar)

Link to this sectionDeğerlendiriciler arası vs. değerlendirici içi güvenilirlik ve test-tekrar test güvenilirliği#

İnsanlar veri etiketleme veya puanlama sürecine dahil olduğunda, dikkate alınması gereken üç ana güvenilirlik türü vardır. Her biri sonuçların ne kadar tutarlı olduğunu ölçmek için farklı bir amaca hizmet eder. İşte her birine daha yakından bakış:

  • Değerlendiriciler arası güvenilirlik: Değerlendiriciler arası güvenilirlik, aynı görevi yapan farklı kişiler arasında ne kadar uyum olduğuna bakar. Bu, özellikle görüntü etiketleme, duygu analizi veya tıbbi incelemeler gibi projelerde birden fazla açıklayıcı (annotator) dahil olduğunda yararlıdır.

  • Değerlendirici içi güvenilirlik: Odak noktasını tek bir kişiye kaydırır. Değerlendirici içi güvenilirlik, değerlendiricinin aynı görevi farklı zamanlarda tekrarlarken tutarlı kalıp kalmadığını kontrol eder. Eğer etiketler çok fazla değişiyorsa, bu durum belirsiz kılavuzların veya görev netliği eksikliğinin bir sonucu olabilir.

  • Test-tekrar test güvenilirliği: Test-tekrar test güvenilirliği açıklayıcıya değil, kullanılan araç veya yönteme odaklanır. Test benzer koşullar altında tekrarlandığında aynı sonucun ortaya çıkıp çıkmadığını ölçer. Eğer çıktı tutarlı kalıyorsa, yöntem güvenilir kabul edilir.

Bu ölçümler birlikte, hem insanların hem de süreçlerin istikrarlı, güvenilir sonuçlar ürettiğini doğrulamaya yardımcı olur.

Değerlendiriciler arası, değerlendirici içi ve test-tekrar test güvenilirliğine genel bir bakış

Şekil 2. Değerlendiriciler arası, değerlendirici içi ve test-tekrar test güvenilirliğine genel bakış (Görsel: yazar)

Link to this sectionDeğerlendiriciler arası güvenilirlik neden önemlidir?#

Büyük ölçekli görüntü yapay zekası projelerinde, etiketlenmiş verinin kalitesi bir modelin ne kadar iyi performans göstereceğini doğrudan etkiler. Açıklayıcıların kılavuzları uygulama biçimindeki küçük farklılıklar bile eğitim sırasında modeli şaşırtan tutarsızlıklar yaratabilir. Zamanla bu durum hatalı tahminlere, boşa harcanan kaynaklara ve maliyetli yeniden etiketleme ihtiyacına yol açabilir.

Değerlendiriciler arası güvenilirliği ölçmek, bu sorunları erkenden tespit etmeye yardımcı olur. Yüksek uyum, açıklayıcıların aynı hizada olduğu, daha temiz ve daha güvenilir veri setleri ürettikleri anlamına gelir. Düşük uyum ise projenin ilerlemesinden önce talimatların, örneklerin veya eğitimin iyileştirilmesi gerekebileceğine işaret eder. Etiketleyicilerin uyum içinde çalışmasını sağlayarak ekipler, daha etkili öğrenen ve gerçek dünya uygulamalarında daha iyi sonuçlar veren yapay zeka modelleri oluşturabilir.

Link to this sectionDeğerlendiriciler arası güvenilirlik için pratik hususlar#

Birden fazla değerlendiriciyle çalışırken ve yüksek değerlendiriciler arası güvenilirliği korumayı hedeflerken aklında bulundurman gereken bazı temel pratik hususlar şunlardır:

  • Belirsiz veya öznel görevler: Etiketleme, bulanık bir nesnenin yaya olup olmadığına karar vermek veya bir görüntünün kalitesini yargılamak gibi yorumlama içerdiğinde, birden fazla değerlendirici kararların tutarlı olmasını ve bireysel yanlılıklardan aşırı etkilenmemesini sağlamaya yardımcı olur.
  • Basit, nesnel görevler: Bir görüntüdeki araba sayısını sayma veya bir nesnenin var olup olmadığını doğrulama gibi doğrudan görevler genellikle sadece bir tane iyi eğitilmiş değerlendirici gerektirir, çünkü süreç net bir şekilde tanımlandığında uyum genellikle yüksektir.
  • Net etiketleme kılavuzları: Ayrıntılı, takip etmesi kolay talimatlar etiketlerin nasıl uygulanacağı konusundaki belirsizliği azaltır ve bu da değerlendiriciler arasındaki uyumu geliştirir. Kılavuzlar, tutarsız yorumlamaları önlemek için uç durumları açıkça kapsamalıdır.
  • Periyodik eğitim ve kalibrasyon: Deneyimli değerlendiriciler bile zamanla yargılarında sapma yaşayabilir. Düzenli eğitim oturumları ve kalibrasyon kontrolleri, tutarlılığı korumaya ve araştırmacı yanlılığını en aza indirmeye yardımcı olur.

Link to this sectionDeğerlendiriciler arası güvenilirlik ölçümleri#

Değerlendiriciler arası güvenilirliği ölçmenin birkaç yolu vardır ve en iyi seçenek veri ve görev türüne bağlıdır. Bazı yöntemler basit evet/hayır sorularını ele alan tek değerlendiriciler için iyi çalışırken, diğerleri birden fazla değerlendirici içeren durumlar için tasarlanmıştır.

Yaygın yaklaşımlar arasında yüzde uyum, Cohen Kappa, Fleiss Kappa ve sınıf içi korelasyon katsayısı bulunur. Her yöntem değerlendiriciler arasındaki uyum seviyesini ölçer ve bazı uyumların şans eseri meydana gelebileceği olasılığını hesaba katar.

Link to this sectionCohen Kappa ve Fleiss Kappa#

Cohen Kappa, iki değerlendirici arasındaki değerlendiriciler arası güvenilirliği ölçmek için yaygın olarak kullanılan bir yöntemdir. Bazı uyumların şans eseri gerçekleşebileceği olasılığını ayarlarken, bir görev üzerinde ne sıklıkta anlaştıklarını hesaplar. Puanlar -1 ile 1 arasında değişir; 1 mükemmel uyumu, 0 ise uyumun rastgele tahminden daha iyi olmadığını gösterir.

Benzer şekilde Fleiss Kappa, ikiden fazla değerlendirici dahil olduğunda kullanılır. Grubun ne kadar tutarlı olduğunu gösteren genel bir puan sağlar. Her iki yöntem de görüntü etiketleme veya duygu etiketleme gibi belirli kategorilere sahip görevler için kullanılır. Hesaplamaları kolaydır ve çoğu etiketleme aracı tarafından desteklenir.

Link to this sectionYüzde uyum ve sınıf içi korelasyon katsayısı (ICC)#

Değerlendiriciler arası güvenilirliği ölçmenin bir başka yolu da değerlendiricilerin aynı kararı verme yüzdesini hesaplayan yüzde uyumdur. Kullanımı basit olsa da şans eseri ortaya çıkabilecek uyumu hesaba katmaz.

Bu arada, sınıf içi korelasyon katsayısı (ICC) sürekli veya ölçek tabanlı veriler için kullanılan daha gelişmiş bir yöntemdir. Birden fazla değerlendirici arasında derecelendirmelerin ne kadar tutarlı olduğunu ölçer ve genellikle puanlar, ölçümler veya sabit kategorilerin ötesindeki diğer veri türlerini içeren araştırmalarda uygulanır.

Link to this sectionDeğerlendiriciler arası güvenilirlik örnekleri ve uygulamaları#

Artık değerlendiriciler arası güvenilirliğin nasıl ölçüleceğine dair daha iyi bir anlayışa sahip olduğumuza göre, bu yöntemlerin gerçek dünya uygulamalarında nasıl kullanılabileceğini inceleyelim.

Link to this sectionTıbbi görüntüleme etiketlemesinde değerlendiriciler arası güvenilirlik#

Söz konusu tıbbi görüntüleme olduğunda, yorumlamadaki küçük farklılıklar bile sonuçlarda önemli değişikliklere yol açabilir. Örneğin radyologlardan sıklıkla ince, belirsiz veya tanımlanması zor örüntüleri tanımlamaları istenir. Bu örüntüler yapay zeka sistemleri için eğitim verisi haline geldiğinde riskler daha yüksektir. Eğer uzmanlar aynı taramayı farklı şekilde etiketlerse, model yanlış örüntüleri öğrenebilir veya hiç öğrenemeyebilir.

Değerlendiriciler arası güvenilirlik, bu tür verilerle uğraşan ekiplerin uzman yargılarının aslında ne kadar tutarlı olduğunu değerlendirmesine yardımcı olur. Örneğin, retinal OCT taramalarına odaklanan yakın tarihli bir çalışmada, iki değerlendirici 500 görüntüyü etiketledi.

Drusen (retina altındaki sarı tortular) gibi net özellikler için uyum, 0,87'lik bir kappa puanı ile yüksekti. Ancak hiperreflektif odak noktaları (retinal taramalarda görülen küçük, parlak noktalar) gibi tanımlanması daha zor unsurlar için puan 0,33'e düştü. Bu, daha net ve daha iyi tanımlanmış özelliklerin daha tutarlı uzman yargıları üretme eğiliminde olduğunu, belirsiz olanların ise yorumlamaya daha fazla alan bıraktığını gösterir.

Retinal hastalıklarla ilgili farklı özellikler için etiket örnekleri

Şekil 3. Retinal hastalıklarla ilgili farklı özellikler için etiket örnekleri (Kaynak)

Link to this sectionOtonom araç veri setleri ve değerlendiriciler arası güvenilirlik#

Bir otonom sürüş sistemi için yapay zeka modelleri eğitmek, çok çeşitli yol koşullarında doğru ve tutarlı etiketlere bağlıdır. Bu tür projelerde çalışan açıklayıcılardan genellikle yayaları, araçları, trafik işaretlerini ve şerit çizgilerini, genellikle zayıf aydınlatmada veya kalabalık sahnelerde tanımlamaları istenir.

Bu kararlar, modelin zorlu gerçek dünya ortamlarında nasıl tepki vereceğini öğrenmesini şekillendirir. Değerlendiriciler arası güvenilirlik, ekiplerin bu etiketlerin açıklayıcılar arasında aynı şekilde uygulanıp uygulanmadığını kontrol etmesini mümkün kılar.

Açıklama anlaşmazlıklarına bir bakış

Şekil 4. Etiketleme anlaşmazlıklarına bir bakış (Kaynak)

Link to this sectionDeğerlendiriciler arası güvenilirliğin ötesinde: Diğer kalite güvence önlemleri#

Değerlendiriciler arası güvenilirliği ölçmek bir yapay zeka çözümü oluşturmanın kritik bir adımı olsa da, daha geniş bir kalite güvence sürecinin parçasıdır. İşte ekipler ve projeler arasında veri kalitesini artırmaya yardımcı olabilecek diğer bazı uygulamalar:

  • Net etiketleme kılavuzları: Talimatlar, herkesin aynı standarttan çalışması için etiketlerin tam olarak nasıl uygulanacağını açıklamalıdır.
  • Eğitim ve kalibrasyon: Düzenli oturumlar, açıklayıcıların uyumlu kalmasına yardımcı olur ve onlara soru sormaları ve uç durumlara uyum sağlamaları için alan tanır.
  • Devam eden kalite kontrolleri: Nokta kontrolleri ve altın standart örnekler hataları erkenden yakalayabilir ve proje ölçeklendikçe kaliteyi yüksek tutabilir.
  • Anlaşmazlık çözümü: Açıklayıcılar anlaşamadığında, bu vakaları incelemek ve nihai kararları vermek için net bir süreç olmalıdır.
  • Çeşitli açıklayıcı havuzu: Farklı geçmişlere sahip kişileri dahil etmek yanlılığı azaltabilir ve veri setinin gerçek dünya çeşitliliğini ne kadar iyi temsil ettiğini iyileştirebilir.

Link to this sectionÖne çıkanlar#

Değerlendiriciler arası güvenilirlik, insanların etiketleri ne kadar tutarlı uyguladığını veya kararlar aldığını ölçer. Cohen Kappa, Fleiss Kappa ve ICC gibi yöntemler bu uyumu nicelleştirmeye yardımcı olur. Net kılavuzlar, eğitim ve yanlılık kontrolü ile güvenilir etiketler daha güçlü veriye ve daha iyi model sonuçlarına yol açar.

Topluluğumuza katıl ve yapay zeka hakkında daha fazla bilgi keşfetmek için GitHub depomuza göz at. Kendi görüntü yapay zekası projenize başlamak istiyorsan lisanslama seçeneklerimize bakabilirsin. Ayrıca çözüm sayfalarımızı ziyaret ederek sağlıkta yapay zekanın ve perakendede görüntü yapay zekasının nasıl bir etki yarattığını görebilirsin.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla