YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Makine öğreniminde doğruluk, kesinlik ve hatırlama karşılaştırması

Abirami Vina

6 dakika okuma süresi

20 Ağustos 2025

Makine Öğreniminde Doğruluk, Kesinlik ve Geri Çağırma hakkında bilgi edinin. Karışıklık Matrisini, F1 Skorunu ve bu hayati değerlendirme metriklerinin nasıl kullanılacağını keşfedin.

Makine öğrenimi (ML), verilerden öğrenen sistemler oluşturmaya odaklanan bir yapay zeka (AI) dalıdır. Makinelerin görüntüleri yorumladığı bilgisayarlı görü ve insan dilini anladığı ve ürettiği doğal dil işleme dahil olmak üzere diğer birçok yapay zeka alanında merkezi bir rol oynar.

Genellikle, bu tür yapay zeka modelleri, verilerden tahminler yapmak için derin öğrenme tekniklerini kullanır. Bu tür sistemler oldukça etkili olabilirken, her zaman doğru tahminler üretmezler. Bazı çıktılar doğru olabilirken, diğerleri hedefi ıskalayabilir. 

Bu hataların nasıl oluştuğunu bilmek, bir modelin ne kadar iyi performans gösterdiğini değerlendirmenin önemli bir parçasıdır. Performansı ölçmek için model değerlendirme metriklerini kullanabiliriz. 

Yaygın değerlendirme metrikleri arasında doğruluk (genel doğruluk), kesinlik (olumlu tahminlerin güvenilirliği) ve geri çağırma (modelin gerçek pozitifleri ne kadar iyi tanımladığı) bulunur. İlk başta benzer görünebilirler, ancak her biri bir modelin davranışının farklı bir bölümüne odaklanır. 

Bu makalede, bu yapay zeka modeli performans metriklerinin her birine daha yakından bakacağız. Ayrıca, birbirleriyle nasıl ilişkili olduklarını ve kullanım durumunuz için doğru olanı nasıl seçeceğinizi de inceleyeceğiz. Hadi başlayalım!

Model değerlendirme metrikleri, makine öğreniminde önemlidir.

Bir makine öğrenimi modeli ilk başta iyi performans gösteriyor gibi görünebilir. Ancak doğru değerlendirme metrikleri olmadan, sonuçlarının ne kadar doğru olduğunu anlamak zordur. Bu metrikler, model değerlendirmesine yapı kazandırır ve önemli bir soruyu yanıtlamaya yardımcı olur: Modelin tahminleri, belirli bir görev için kullanışlı ve güvenilir mi?

Doğruluk, kesinlik ve hatırlama gibi metrikler, yapay zeka geliştiricilerine bir modelin ne kadar iyi çalıştığını ölçmek için net bir yol sunar. Örneğin, farklı modelleri karşılaştırırken, bu metrikler belirli bir görev için hangisinin en iyi performansı gösterdiğini görmeyi mümkün kılar. Performansı değerlendirmeye yardımcı olurlar ve bir yapay zeka projesinin hedeflerine en uygun modelin seçimine rehberlik ederler.

Şekil 1. Model eğitimi ve değerlendirme iş akışı (Kaynak)

Bu metrikler ayrıca performans karşılaştırmalarını daha objektif hale getirir. Tahminlere veya eksik gözlemlere güvenmek yerine, bir modelin farklı durumlarda nasıl davrandığına dair ölçülebilir içgörüler sağlarlar. Bunu yaparak, her bağlamda performansın hangi yönlerinin en önemli olduğunu vurgularlar.

Örneğin, metrik seçimi genellikle uygulamaya bağlıdır. AI sağlık uygulamalarında, bazı negatifler yanlışlıkla işaretlense bile, amaç mümkün olduğunca çok sayıda pozitif vakayı belirlemek olduğundan, geri çağırma önemlidir. Buna karşılık, bir e-posta spam filtresi, meşru e-postaları yanlışlıkla spam olarak işaretlemekten kaçınmak için hassasiyete öncelik verebilir.

Karmaşıklık matrisi: Sınıflandırma metriklerinin temeli

Karışıklık matrisi, yapay zeka modellerini değerlendirmek için temel olan ikiye iki bir tablodur. Tahminleri, gerçek sonuçları tahmin edilen sonuçlarla (modelin verdiği cevaplar) karşılaştırarak dört kategoriye ayırır. 

Bu karşılaştırma, modelin performansının ayrıntılı bir görünümünü sağlar. Doğrudan matristeki değerlerden hesaplanan kesinlik ve hatırlama gibi temel değerlendirme metriklerinin temelini oluşturur.

Tablonun satırları gerçek sınıfları, sütunları ise tahmin edilen sınıfları temsil eder. Her hücre, o kategorideki sonuçların sayısını gösterir. Basitçe söylemek gerekirse, kaç tahminin doğru olduğunu ve modelin yaptığı hata türlerini sergiler.

Karmaşıklık matrisi, verilerin dengesiz olduğu durumlarda özellikle yararlıdır; yani bazı kategorilerde diğerlerinden çok daha fazla örnek bulunur. Ayrıca, farklı türdeki hataların farklı maliyetler taşıdığı durumlarda da yardımcı olur. 

Örneğin, sahtekarlık tespitinde, sahtekarlık faaliyetini yakalamak kritik öneme sahiptir, ancak gerçek işlemleri yanlış bir şekilde işaretlemek de sorunlara neden olabilir. Matris, her tür hatanın ne sıklıkla meydana geldiğini açıkça gösterir.

Karmaşıklık matrisinin elemanları

İşte bir karmaşıklık matrisindeki farklı öğelere genel bir bakış:

  • Doğru pozitif (TP): Model pozitif bir örneği doğru bir şekilde tahmin ettiğinde, doğru pozitif olarak kaydedilir. Örneğin, bir bilgisayarlı görü modeli bir görüntüdeki bir aracı doğru bir şekilde sınıflandırır.

  • Doğru negatif (TN): Modelin negatif bir örneği doğru bir şekilde tanımlaması durumunda doğru negatif oluşur. Örneğin, bir e-posta sınıflandırıcısı normal bir mesajı spam değil olarak işaretler.

  • Yanlış pozitif (FP): Model, aslında negatif olan bir örnek için yanlışlıkla pozitif bir sonuç tahmin ettiğinde yanlış pozitif üretir. Tip I Hatası olarak da bilinen bu durum, bir sahtekarlık tespit sisteminin geçerli bir işlemi sahtekarlık olarak işaretlemesi durumunda meydana gelebilir.

  • Yanlış negatif (FN): Modelin pozitif bir durumu tespit edememesi ve yanlışlıkla negatif olarak tahmin etmesi durumunda yanlış negatif kaydedilir. Tip II Hatası olarak da adlandırılan bu durum, bir tanı aracının aslında hasta olan bir hastada hastalığı kaçırması durumunda ortaya çıkabilir.
Şekil 2. Bir karmaşıklık matrisinin öğeleri (Kaynak)

Karışıklık matrisinin görsel temsili ve yorumlanması

Bir karmaşıklık matrisi, bir ızgara biçiminde görüntülenir. Dikey eksen gerçek sınıfları, yatay eksen ise tahmin edilen sınıfları gösterir. Doğru tahminler, gerçek pozitifleri ve gerçek negatifleri temsil eden köşegen boyunca görünür.

Hatalar, yanlış pozitifleri ve yanlış negatifleri kapsayan köşegenin dışına düşer. Bu yapı, güçlü ve zayıf yönleri tespit etmeyi kolaylaştırır.

Makine öğreniminde doğruluk nedir?

Doğruluk, bir makine öğrenimi modelinin ne kadar iyi performans gösterdiğini değerlendirmek için en yaygın kullanılan ölçütlerden biridir. Tahminlerin tüm sınıflarda ne sıklıkla doğru olduğunu ölçer. Başka bir deyişle, basit bir soruyu yanıtlar: Yapay zeka modelinin yaptığı tüm tahminler arasında kaçı doğruydu?

Doğruluk formülü, doğru tahminlerin sayısı (hem gerçek pozitifler hem de gerçek negatifler dahil) bölü toplam tahmin sayısıdır. Doğruluğu hesaplamak basittir ve anlaşılması kolaydır, bu da onu model değerlendirmesinde ortak bir başlangıç noktası yapar.

Genel olarak, dengeli veri kümeleriyle çalışırken doğruluk güvenilirdir. Ancak, doğruluk, bir sınıfın diğerlerine baskın olduğu dengesiz veri kümelerinde yanıltıcı olabilir. Her zaman çoğunluk sınıfını tahmin eden bir model, diğer azınlık sınıflarını tespit edememesine rağmen yüksek bir doğruluk puanı elde edebilir.

Örneğin, yalnızca birkaç resmin yaya içerdiği bir görüntü veri kümesinde, her resim için "yaya yok" tahmininde bulunan bir model hala yüksek doğruluk elde edebilir, ancak gerçek yayaları algılamada tamamen başarısız olabilir.

Bunun nedeni, doğruluğun tek başına bir modelin ne tür hatalar yaptığını veya bunların ne sıklıkla meydana geldiğini göstermemesidir. Bu nedenle, bir yapay zeka modelinin ne kadar iyi çalıştığını tam olarak anlamak için kesinlik ve geri çağırma gibi metriklere de bakmak önemlidir.

Hassasiyete derinlemesine bakış: Yanlış alarmları en aza indirme

Hassasiyet (Precision), bir modelin pozitif tahminlerinin doğruluğunu ölçen önemli bir değerlendirme metriğidir. Şu soruyu yanıtlar: Pozitif olarak tahmin edilen tüm örneklerin kaçı doğruydu?

Hassasiyet formülü, gerçek pozitiflerin sayısının, gerçek pozitifler ve yanlış pozitiflerin toplamına bölünmesiyle bulunur. Özellikle pozitif bir tahminin yanlış çıkması durumunda maliyetli olacağı durumlarda önemlidir.

Şekil 3. Doğruluk ve kesinliğin karşılaştırılması. (Kaynak)

Örneğin, sahtekarlık tespitinde, düşük hassasiyete sahip bir model birçok geçerli işlemi sahtekarlık olarak işaretleyebilir ve hem kullanıcılar hem de destek ekipleri için gereksiz sorunlar yaratabilir. Yüksek hassasiyete sahip bir model, işaretlenen işlemlerin gerçek sahtekarlık olma olasılığının daha yüksek olmasını sağlayarak bu riski azaltır.

Yüksek hassasiyet iyi olsa da, çok fazla odaklanan modeller çok seçici hale gelebilir ve gerçek pozitif vakaları kaçırabilir. Bu nedenle, performansın dengeli kalması için hassasiyet metriği genellikle hatırlama ile birlikte kontrol edilir.

Recall (Geri Çağırma) nedir?

Geri Çağırma (Recall), bir modelin gerçek pozitif vakaları ne kadar iyi tanımladığını ölçmek için kullanılan bir metriktir. Duyarlılık veya gerçek pozitif oranı olarak bilinir ve şu soruyu yanıtlar: Tüm gerçek pozitif örneklerin kaçını model doğru bir şekilde tespit etti?

Geri çağırma formülü, gerçek pozitiflerin sayısının, gerçek pozitifler ve yanlış negatiflerin toplamına bölünmesidir. Yüksek bir geri çağırma skoru, modelin verilerdeki gerçek pozitif vakaların çoğunu yakaladığını gösterir. 

Recall, bir durumu tespit edememenin tedaviyi geciktirebileceği ve hastaları riske atabileceği sağlık hizmetleri gibi sektörlerde önemlidir. Bazı negatif vakalar yanlış işaretlenmiş olsa bile, tüm gerçek vakaları belirlemek en yüksek öncelik olmaya devam eder.

Ancak, yalnızca hatırlamaya odaklanan modeller çok fazla yanlış pozitif işaretleyebilir, bu da hassasiyeti düşürür ve modelin genel verimliliğini olumsuz etkiler. Güvenilir Yapay Zeka modeli performansı için hatırlama ve hassasiyeti dengelemek çok önemlidir.

Dengeleme eylemi: Kesinlik ve geri çağırma ödünleşimi

Hassasiyet ve geri çağırma genellikle zıt yönlerde hareket eder. Biri iyileştiğinde, diğeri düşebilir. Bu ödünleşim, makine öğrenimi görevlerinde yaygın bir zorluktur.

Yüksek hassasiyetli bir model, yalnızca emin olduğunda bir şeyi pozitif olarak tahmin eder. Bu, yanlış alarmları azaltır ancak gerçek pozitifleri kaçırabilir, bu da hatırlamayı azaltır. Her pozitif vakayı yakalamaya çalışan bir model, hatırlamayı artırır ancak daha fazla yanlış alarm riskini taşır, bu da hassasiyeti azaltır.

Bu ödünleşme, modelin karar eşiğini ayarladığınızda daha net hale gelir. Eşik, bir sistemin bir puanı veya olasılığı bir eyleme veya etikete dönüştürmek için kullandığı kesme noktasıdır. Eşiği düşürmek, sistemin daha sık olumlu hareket etmesini sağlar, bu da geri çağırmayı artırabilir ancak hassasiyeti azaltabilir. Eşiği yükseltmek ise tam tersi bir etkiye sahiptir: model daha az pozitif tahmin eder, hassasiyet artar, ancak geri çağırma genellikle düşer.

Spam algılama üzerinde çalıştığınızı varsayalım. Model, spam'in gelen kutusuna girmesine izin verme riski ile gerçek e-postaları engelleme riski arasında bir denge kurmalıdır. Katı bir filtre hala bazı spam'leri kaçırabilirken, daha esnek bir filtre yanlışlıkla meşru mesajları engelleyebilir. Doğru denge, kullanım durumuna ve her tür hatanın maliyetine bağlıdır.

Hassasiyet-Geri Çağırma eğrisinin önemi

Hassasiyet-geri çağırma eğrisi veya PR eğrisi, modelin karar eşiği değiştikçe hassasiyet ve geri çağırmanın nasıl değiştiğini gösterir. Her nokta, ikisi arasındaki farklı bir dengeyi temsil eder. PR eğrisi, özellikle bir sınıfın çok daha az sıklıkta olduğu dengesiz veri kümeleri için kullanışlıdır. 

Ayrıca, bir modelin pozitifleri negatiflerden farklı karar eşiklerinde ne kadar iyi ayırdığını gösteren Alıcı Çalışma Karakteristiği (ROC) eğrisi'nden daha anlamlı bir içgörü sağlar. Hem yüksek kesinliğe hem de yüksek hatırlamaya sahip bir model, genellikle ideal olan sağ üst köşeye yakın kalan bir kesinlik-hatırlama eğrisine sahip olacaktır.

F1 skorunu tanıtıyoruz: Denge için birleşik bir metrik

F1 skoru, kesinlik ve hatırlama arasındaki dengeyi yakalayan tek bir değer sağlar. F1 skoru, kesinlik ve hatırlamanın toplamına bölünerek kesinlik ve hatırlamanın çarpımının iki katı olarak hesaplanır. Hem yanlış pozitifler hem de yanlış negatifler önemli olduğunda ve dengesiz veri kümeleriyle çalışırken veya model performansının dengeli bir görünümüne ihtiyaç duyulduğunda kullanışlıdır.

Şekil 4. Precision ve recall kullanarak F1 skorunu hesaplama (Kaynak)

Doğruluk, kesinlik ve hatırlamanın ötesinde

Doğruluk, kesinlik ve hatırlama (recall) önemli olmakla birlikte, diğer metrikler model türüne ve veri kümesi özelliklerine bağlı olarak ek bilgiler sunar. 

İşte performansın farklı yönlerini değerlendirmeye yardımcı olan bazı yaygın olarak kullanılan metrikler:

  • Özgüllük: Modelin gerçek negatifleri ne kadar iyi tanımladığını ölçer. Yanlış pozitiflerden kaçınmak önemli olduğunda kullanışlıdır.

  • AUC: AUC veya Eğri Altındaki Alan, modelin sınıflar arasında ne kadar iyi ayrım yapabildiğini yansıtan tek bir puan verir.

  • Log kaybı: Log kaybı, bir modelin tahminler yaparken ne kadar kendinden emin olduğunu ölçmek için kullanılır ve yüksek güvenle yapılan yanlış tahminlere daha fazla ceza verir. Burada, güven, modelin tahmini hakkında ne kadar emin olduğunu ifade eder.

  • Çok etiketli değerlendirme: Çok etiketli görevlerde, metrikler genel model performansını yansıtmak için etiketler arasında ortalaması alınır.

Bilgisayar görüşünde doğruluk, kesinlik ve hatırlamanın uygulanması

Doğruluk, kesinlik ve hatırlamanın ne olduğunu daha net anladığımıza göre, bu metriklerin bilgisayarlı görüde nasıl uygulandığını inceleyelim.

Ultralytics YOLO11 gibi bilgisayarlı görü modelleri, modelin bir görüntüde hangi nesnelerin bulunduğunu tanımladığı ve sınırlayıcı kutular kullanarak konumlarını belirlediği nesne tespiti gibi görevleri destekler. Her tahmin, hem nesne etiketini hem de konumunu içerir, bu da değerlendirmeyi yalnızca bir etiketin doğru olup olmadığını kontrol etmekten daha karmaşık hale getirir.

Şekil 5. Ultralytics YOLO11'in nesne algılama için kullanımına bir örnek. (Kaynak)

Kameraların raflardaki ürünleri otomatik olarak izlemek için kullanıldığı bir perakende uygulamasını düşünün. Bir nesne algılama modeli, mısır gevreği kutuları, soda kutuları veya su şişeleri gibi öğeleri tanımlayabilir ve konumlarını işaretleyebilir. 

Bu durumda, kesinlik bize tespit edilen öğelerin kaçının aslında doğru olduğunu söyler. Yüksek kesinlik, sistemin bir gölgeyi veya arka plan nesnesini ürün olarak etiketlemek gibi yanlış pozitiflerden kaçındığı anlamına gelir. Geri çağırma, modelin raftaki gerçek ürünlerin kaçını tespit etmeyi başardığını gösterir. Yüksek geri çağırma, doğru envanter sayımları için kritik olan daha az öğenin kaçırıldığı anlamına gelir.

Doğruluk, yine de genel bir doğruluk ölçüsü sağlayabilir, ancak bu tür bir ortamda, birkaç ürünün bile eksik olması veya orada olmayan öğelerin tespit edilmesi, stok yönetimi üzerinde büyük bir etkiye sahip olabilir. Bu nedenle geliştiriciler, sistemin hem güvenilir hem de gerçek dünya kullanımı için pratik olduğundan emin olmak için kesinlik, hatırlama ve doğruluğu birlikte değerlendirir.

Doğruluk, kesinlik ve hatırlama: Temel çıkarımlar

Doğruluk, kesinlik ve hatırlama, bir makine öğrenimi modelinin performansının farklı yönlerini sergiler. Yalnızca bir metriğe güvenmek yanıltıcı olabilir.

Karmaşıklık matrisi, hassasiyet-hatırlama eğrileri ve F1-skoru gibi araçlar ve metrikler, ML modelinde iyileştirmeler yapma konusunda ödünleşimleri ortaya çıkarmaya ve kararlara rehberlik etmeye yardımcı olur. Belirli bir yapay zeka çözümü için doğru metrik kombinasyonunu seçerek, modellerin gerçek dünya uygulamalarında doğru, güvenilir ve etkili olduğundan emin olabilirsiniz.

Büyüyen topluluğumuzu keşfedin! Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuza göz atın. Bilgisayarlı görü projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize bir göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zeka ve robotikte Görüntü İşleme alanlarını keşfedin! 

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı