Makine öğreniminde doğruluk, kesinlik ve geri çağırma

Abirami Vina

6 dakika okuma

20 Ağustos 2025

Makine Öğreniminde Doğruluk, Kesinlik ve Geri Çağırma hakkında bilgi edinin. Karışıklık Matrisi, F1 Puanı ve bu önemli değerlendirme metriklerinin nasıl kullanılacağını keşfedin.

Makine öğrenimi (ML), verilerden öğrenen sistemler oluşturmaya odaklanan bir yapay zeka (AI) dalıdır. Makinelerin görüntüleri yorumladığı bilgisayarla görme ve insan dilini anlayıp ürettiği doğal dil işleme de dahil olmak üzere yapay zekanın diğer birçok alanında merkezi bir rol oynar.

Bu tür yapay zeka modelleri genellikle verilerden tahminler yapmak için derin öğrenme tekniklerini kullanır. Bu tür sistemler oldukça etkili olsalar da, her zaman doğru tahminler üretmezler. Bazı çıktılar doğru olabilirken, diğerleri hedefi ıskalayabilir. 

Bu hataların nasıl oluştuğunu bilmek, bir modelin ne kadar iyi performans gösterdiğini değerlendirmenin önemli bir parçasıdır. Performansı ölçmek için model değerlendirme metriklerini kullanabiliriz. 

Yaygın değerlendirme ölçütleri arasında doğruluk (genel doğruluk), kesinlik (pozitif tahminlerin güvenilirliği) ve geri çağırma (modelin gerçek pozitifleri ne kadar iyi tanımladığı) yer alır. İlk başta benzer görünebilirler, ancak her biri bir modelin davranışının farklı bir kısmına odaklanır. 

Bu makalede, bu yapay zeka modeli performans ölçümlerinin her birine daha yakından bakacağız. Ayrıca birbirleriyle nasıl ilişkili olduklarını ve kullanım durumunuz için doğru olanı nasıl seçeceğinizi keşfedeceğiz. Hadi başlayalım!

Makine öğreniminde model değerlendirme metrikleri önemlidir

Bir makine öğrenimi modeli ilk başta iyi performans gösteriyor gibi görünebilir. Ancak doğru değerlendirme metrikleri olmadan sonuçlarının ne kadar doğru olduğunu anlamak zordur. Bu metrikler model değerlendirmesine yapı kazandırır ve kilit bir soruyu yanıtlamaya yardımcı olur: Modelin tahminleri belirli bir görev için faydalı ve güvenilir mi?

Doğruluk, kesinlik ve geri çağırma gibi metrikler yapay zeka geliştiricilerine bir modelin ne kadar iyi çalıştığını ölçmek için net bir yol sunar. Örneğin, farklı modelleri karşılaştırırken, bu metrikler belirli bir görev için hangisinin en iyi performansı gösterdiğini görmeyi mümkün kılar. Performansı değerlendirmeye yardımcı olurlar ve bir YZ projesinin hedeflerine en uygun modelin seçimine rehberlik ederler.

Şekil 1. Model eğitimi ve değerlendirme iş akışı(Kaynak)

Bu metrikler ayrıca performans karşılaştırmalarını daha objektif hale getirir. Tahminlere veya eksik gözlemlere dayanmak yerine, bir modelin farklı durumlarda nasıl davrandığına dair ölçülebilir içgörüler sağlarlar. Bunu yaparak, her bağlamda performansın hangi yönlerinin daha önemli olduğunu vurgularlar.

Örneğin, metrik seçimi genellikle uygulamaya bağlıdır. Yapay zeka sağlık uygulamalarında geri çağırma önemlidir çünkü amaç, bazı negatifler yanlışlıkla işaretlense bile mümkün olduğunca çok sayıda pozitif vakayı tespit etmektir. Buna karşılık, bir e-posta spam filtresi, meşru e-postaların yanlışlıkla spam olarak işaretlenmesini önlemek için hassasiyete öncelik verebilir.

Karışıklık matrisi: Sınıflandırma metriklerinin temeli

Karışıklık matrisi, yapay zeka modellerini değerlendirmek için temel olan ikiye iki bir tablodur. Gerçek sonuçları tahmin edilen sonuçlarla (modelin verdiği cevaplar) karşılaştırarak tahminleri dört kategoride düzenler. 

Bu karşılaştırma, modelin performansının ayrıntılı bir görünümünü sağlar. Doğrudan matristeki değerlerden hesaplanan hassasiyet ve geri çağırma gibi temel değerlendirme metriklerinin temelini oluşturur.

Tablonun satırları gerçek sınıfları, sütunları ise tahmin edilen sınıfları temsil etmektedir. Her hücre o kategorideki sonuçların sayısını gösterir. Basitçe söylemek gerekirse, kaç tahminin doğru olduğunu ve modelin ne tür hatalar yaptığını gösterir.

Karışıklık matrisi özellikle veriler dengesiz olduğunda, yani bazı kategoriler diğerlerinden çok daha fazla örneğe sahip olduğunda kullanışlıdır. Farklı hata türleri farklı maliyetler taşıdığında da faydalıdır. 

Örneğin, dolandırıcılık tespitinde, hileli faaliyetlerin yakalanması kritik öneme sahiptir, ancak gerçek işlemlerin yanlış işaretlenmesi de sorunlara neden olabilir. Matris, her bir hata türünün ne sıklıkla meydana geldiğini açıkça ortaya koymaktadır.

Karışıklık matrisinin elemanları

İşte bir karışıklık matrisindeki farklı unsurlara genel bir bakış:

  • Gerçek pozitif (TP): Model pozitif bir örneği doğru tahmin ettiğinde, bu gerçek pozitif olarak kaydedilir. Örneğin, bir bilgisayar görüş modeli bir görüntüdeki bir aracı doğru şekilde sınıflandırır.

  • Gerçek negatif (TN): Model olumsuz bir örneği doğru şekilde tanımladığında gerçek bir olumsuzluk ortaya çıkar. Örneğin, bir e-posta sınıflandırıcı normal bir mesajı spam değil olarak işaretler.

  • Yanlış pozitif (FP): Model, aslında negatif olan bir örnek için yanlış bir şekilde pozitif bir sonuç tahmin ettiğinde yanlış pozitif üretir. Tip I Hata olarak da bilinen bu durum, bir dolandırıcılık tespit sistemi geçerli bir işlemi hileli olarak işaretlediğinde ortaya çıkabilir.

  • Yanlış negatif (FN): Model pozitif bir vakayı tespit edemediğinde ve yanlışlıkla negatif olarak tahmin ettiğinde yanlış negatif kaydedilir. Tip II Hata olarak da adlandırılan bu durum, bir tanı aracı gerçekten hasta olan bir hastada bir hastalığı gözden kaçırdığında ortaya çıkabilir.
Şekil 2. Karışıklık matrisinin elemanları(Kaynak)

Karışıklık matrisinin görsel gösterimi ve yorumlanması

Bir karışıklık matrisi ızgara biçiminde görüntülenir. Dikey eksen gerçek sınıfları, yatay eksen ise tahmin edilen sınıfları gösterir. Doğru tahminler, gerçek pozitifleri ve gerçek negatifleri temsil eden diyagonal boyunca görünür.

Hatalar, yanlış pozitifleri ve yanlış negatifleri kapsayacak şekilde köşegenin dışında kalır. Bu yapı, güçlü ve zayıf yönlerin tespit edilmesini kolaylaştırır.

Makine öğreniminde doğruluk nedir?

Doğruluk, bir makine öğrenimi modelinin ne kadar iyi performans gösterdiğini değerlendirmek için en yaygın kullanılan ölçütlerden biridir. Tahminlerin tüm sınıflarda ne sıklıkla doğru olduğunu ölçer. Başka bir deyişle, basit bir soruyu yanıtlar: Yapay zeka modelinin yaptığı tüm tahminlerden kaç tanesi doğru çıktı?

Doğruluk formülü, doğru tahminlerin sayısının (hem gerçek pozitifleri hem de gerçek negatifleri içerir) toplam tahmin sayısına bölünmesiyle elde edilir. Doğruluğun hesaplanması ve anlaşılması kolaydır, bu da onu model değerlendirmede yaygın bir başlangıç noktası haline getirir.

Genel olarak, dengeli veri kümeleri kullanıldığında doğruluk güvenilirdir. Ancak, bir sınıfın diğerlerine baskın olduğu dengesiz veri kümelerinde doğruluk genellikle yanıltıcı olabilir. Her zaman çoğunluk sınıfını tahmin eden bir model, diğer azınlık sınıflarını tespit edemezken yine de yüksek bir doğruluk puanı elde edebilir.

Örneğin, yalnızca birkaç görüntünün yaya içerdiği bir görüntü veri kümesinde, her görüntü için "yaya yok" tahmininde bulunan bir model yine de yüksek doğruluk elde edebilir ancak gerçek yayaları tespit etmekte tamamen başarısız olabilir.

Bunun nedeni, doğruluğun tek başına bir modelin ne tür hatalar yaptığını veya bunların ne sıklıkta gerçekleştiğini göstermemesidir. Bu nedenle, bir yapay zeka modelinin ne kadar iyi çalıştığını tam olarak anlamak için hassasiyet ve geri çağırma gibi ölçümlere de bakmak önemlidir.

Hassasiyete derinlemesine dalış: Yanlış alarmları en aza indirme

Kesinlik, bir modelin pozitif tahminlerinin doğruluğunu ölçen önemli bir değerlendirme metriğidir. Şu soruyu yanıtlar: Pozitif olarak tahmin edilen tüm örneklerden kaç tanesi doğruydu?

Kesinlik formülü, doğru pozitiflerin sayısının doğru pozitifler ve yanlış pozitiflerin toplamına bölünmesiyle elde edilir. Pozitif bir tahminin yanlış çıkması durumunda maliyetli olacağı durumlarda özellikle önemlidir.

Şekil 3. Doğruluk ve hassasiyetin karşılaştırılması.(Kaynak)

Örneğin, dolandırıcılık tespitinde, düşük hassasiyete sahip bir model birçok geçerli işlemi dolandırıcılık olarak işaretleyebilir ve hem kullanıcılar hem de destek ekipleri için gereksiz sorunlar yaratabilir. Yüksek hassasiyete sahip bir model, işaretlenen işlemlerin gerçek dolandırıcılık olma olasılığının daha yüksek olmasını sağlayarak bu riski azaltır.

Yüksek hassasiyet iyi olsa da, buna çok fazla odaklanan modeller çok seçici olabilir ve gerçek pozitif vakaları kaçırabilir. Bu nedenle, performansı dengede tutmak için hassasiyet metriği genellikle geri çağırma ile birlikte kontrol edilir.

Geri çağırma nedir?

Geri çağırma, bir modelin gerçek pozitif vakaları ne kadar iyi tanımladığını ölçmek için kullanılan bir metriktir. Duyarlılık veya gerçek pozitif oran olarak bilinir ve şu soruya yanıt verir: Tüm gerçek pozitif örneklerden kaç tanesini model doğru tespit etti?

Geri çağırma formülü, gerçek pozitiflerin sayısının gerçek pozitifler ve yanlış negatiflerin toplamına bölünmesiyle elde edilir. Yüksek bir geri çağırma puanı, modelin verilerdeki gerçek pozitif vakaların çoğunu yakaladığını gösterir. 

Geri çağırma, bir durumun tespit edilememesinin tedaviyi geciktirebileceği ve hastaları riske atabileceği sağlık hizmetleri gibi sektörlerde çok önemlidir. Bazı olumsuz vakalar yanlış işaretlense bile, tüm gerçek vakaların tespit edilmesi en önemli öncelik olmaya devam etmektedir.

Bununla birlikte, yalnızca geri çağırmaya odaklanan modeller çok fazla yanlış pozitif işaretleyebilir, bu da hassasiyeti düşürür ve modelin genel verimliliğine zarar verir. Geri çağırma ve hassasiyeti dengelemek, güvenilir yapay zeka modeli performansı için çok önemlidir.

Dengeleyici hareket: Hassasiyet ve geri çağırma değiş tokuşu

Kesinlik ve geri çağırma genellikle zıt yönlerde hareket eder. Biri iyileştiğinde diğeri düşebilir. Bu değiş tokuş, makine öğrenimi görevlerinde yaygın bir zorluktur.

Yüksek hassasiyetli bir model, bir şeyi yalnızca kendinden emin olduğunda pozitif olarak tahmin eder. Bu yanlış alarmları azaltır ancak gerçek pozitifleri kaçırabilir, bu da geri çağırmayı düşürür. Her pozitif değeri yakalamaya çalışan bir model geri çağırmayı artırır ancak daha fazla yanlış alarm riski taşır, bu da hassasiyeti düşürür.

Modelin karar eşiğini ayarladığınızda bu değiş tokuş daha net hale gelir. Eşik, bir sistemin bir puanı veya olasılığı bir eyleme veya etikete dönüştürmek için kullandığı kesme noktasıdır. Eşiği düşürmek sistemin daha sık olumlu davranmasını sağlar, bu da geri çağırmayı artırabilir ancak kesinliği azaltabilir. Eşiği yükseltmek ise tam tersi bir etki yaratır: model daha az pozitif tahmin eder, hassasiyet artar ancak geri çağırma genellikle düşer.

Diyelim ki spam tespiti üzerinde çalışıyorsunuz. Model, spam'in gelen kutusuna girmesine izin verme riski ile gerçek e-postaları engelleme riskini dengelemelidir. Katı bir filtre yine de bazı spam'leri kaçırabilirken, daha yumuşak bir filtre yanlışlıkla meşru mesajları engelleyebilir. Doğru denge, kullanım durumuna ve her bir hata türünün maliyetine bağlıdır.

Hassasiyet-hatırlama eğrisinin önemi

Kesinlik-geri çağırma eğrisi veya PR eğrisi, modelin karar eşiği değiştikçe kesinlik ve geri çağırmanın nasıl değiştiğini gösterir. Her nokta, ikisi arasındaki farklı bir dengeyi temsil eder. PR eğrisi özellikle bir sınıfın çok daha az sıklıkta görüldüğü dengesiz veri kümeleri için kullanışlıdır. 

Ayrıca, bir modelin farklı karar eşiklerinde pozitifleri negatiflerden ne kadar iyi ayırdığını da gösteren Alıcı İşletim Karakteristiği (ROC) eğrisinden daha anlamlı bilgiler sağlar. Hem yüksek hassasiyete hem de yüksek geri çağırmaya sahip bir model, genellikle ideal olan sağ üst köşeye yakın duran bir hassasiyet-geri çağırma eğrisine sahip olacaktır.

F1-skoruyla tanışın: Denge için birleşik bir metrik

F1-skoru, hassasiyet ve geri çağırma arasındaki dengeyi yakalayan tek bir değer sağlar. F1-skoru, hassasiyet ve geri çağırma çarpımının iki katının, hassasiyet ve geri çağırma toplamına bölünmesiyle hesaplanır. Hem yanlış pozitifler hem de yanlış negatifler önemli olduğunda ve dengesiz veri kümeleriyle çalışırken veya model performansının dengeli bir görünümüne ihtiyaç duyulduğunda kullanışlıdır.

Şekil 4. Kesinlik ve geri çağırma kullanılarak F1-skorunun hesaplanması(Kaynak)

Doğruluk, kesinlik ve geri çağırmanın ötesinde

Doğruluk, kesinlik ve geri çağırma esas olmakla birlikte, diğer ölçütler model türüne ve veri kümesi özelliklerine bağlı olarak ek bilgiler sunar. 

Performansın farklı yönlerini değerlendirmeye yardımcı olan ve yaygın olarak kullanılan bazı metrikler aşağıda verilmiştir:

  • Özgüllük: Modelin gerçek negatifleri ne kadar iyi tanımladığını ölçer. Yanlış pozitiflerden kaçınmanın önemli olduğu durumlarda kullanışlıdır.

  • AUC: AUC veya Eğri Altındaki Alan, modelin sınıflar arasında ne kadar iyi ayrım yapabildiğini yansıtan tek bir puan verir.

  • Log kaybı: Log kaybı, bir modelin tahmin yaparken ne kadar emin olduğunu ölçmek için kullanılır ve yüksek güvenle yapılan yanlış tahminlere daha fazla ceza verir. Burada güven, modelin tahmininden ne kadar emin olduğunu ifade eder.

  • Çok etiketli değerlendirme: Çok etiketli görevlerde, genel model performansını yansıtmak için metriklerin etiketler arasında ortalaması alınır.

Bilgisayarla görmede doğruluk, kesinlik ve geri çağırmanın uygulanması

Artık doğruluk, kesinlik ve geri çağırma hakkında daha net bir anlayışa sahip olduğumuza göre, bu metriklerin bilgisayarla görmede nasıl uygulandığını inceleyelim.

Ultralytics YOLO11 gibi bilgisayarla görme modelleri, modelin bir görüntüde hangi nesnelerin bulunduğunu belirlediği ve bunları sınırlayıcı kutular kullanarak konumlandırdığı nesne algılama gibi görevleri destekler. Her tahmin hem nesne etiketini hem de konumunu içerir, bu da değerlendirmeyi sadece bir etiketin doğru olup olmadığını kontrol etmekten daha karmaşık hale getirir.

Şekil 5. Nesne algılama için Ultralytics YOLO11 kullanımına bir örnek.(Kaynak)

Raflardaki ürünleri otomatik olarak izlemek için kameraların kullanıldığı bir perakende uygulamasını düşünün. Bir nesne algılama modeli mısır gevreği kutuları, soda kutuları veya su şişeleri gibi öğeleri tanımlayabilir ve konumlarını işaretleyebilir. 

Bu durumda, hassasiyet bize tespit edilen öğelerin kaç tanesinin gerçekten doğru olduğunu söyler. Yüksek hassasiyet, sistemin bir gölge veya arka plan nesnesini ürün olarak etiketlemek gibi yanlış pozitifleri önlediği anlamına gelir. Geri çağırma, modelin raftaki gerçek ürünlerden kaçını tespit etmeyi başardığını gösterir. Yüksek geri çağırma, daha az ürünün gözden kaçtığı anlamına gelir ki bu da doğru envanter sayımları için kritik önem taşır.

Doğruluk yine de genel bir doğruluk ölçüsü sağlayabilir, ancak bu tür bir ortamda, birkaç ürünü bile kaçırmak veya olmayan ürünleri tespit etmek stok yönetimi üzerinde büyük bir etkiye sahip olabilir. Bu nedenle geliştiriciler, sistemin gerçek dünyada kullanım için hem güvenilir hem de pratik olmasını sağlamak için hassasiyet, geri çağırma ve doğruluğa birlikte bakarlar.

Doğruluk, kesinlik ve geri çağırma: Temel çıkarımlar

Doğruluk, kesinlik ve geri çağırmanın her biri bir makine öğrenimi modelinin performansının farklı yönlerini gösterir. Sadece tek bir metriğe güvenmek yanıltıcı olabilir.

Karışıklık matrisi, kesinlik-hatırlama eğrileri ve F1-skoru gibi araçlar ve metrikler, ödünleşimleri ortaya çıkarmaya ve makine öğrenimi modelinde iyileştirmeler yapma kararlarına rehberlik etmeye yardımcı olur. Belirli bir yapay zeka çözümü için doğru metrik kombinasyonunu seçerek, modellerin gerçek dünya uygulamalarında doğru, güvenilir ve etkili olmasını sağlayabilirsiniz.

Büyüyen topluluğumuzu keşfedin! Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuza göz atın. Bilgisayarla görme projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize bir göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zekayı ve robotikte yapay zekayı keşfedin! 

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı