Makine öğreniminde doğruluk vs. hassasiyet vs. duyarlılık
Makine öğreniminde Doğruluk (Accuracy), Hassasiyet (Precision) ve Duyarlılık (Recall) hakkında bilgi edin. Karmaşıklık Matrisi'ni (Confusion Matrix), F1 Skoru'nu ve bu hayati değerlendirme metriklerinin nasıl kullanılacağını keşfet.

Makine öğrenimi (ML), verilerden öğrenen sistemler oluşturmaya odaklanan bir yapay zeka (AI) dalıdır. Makinelerin görüntüleri yorumladığı bilgisayarlı görü ve insan dilini anlayıp ürettiği doğal dil işleme dahil olmak üzere, AI'nın diğer birçok alanında merkezi bir rol oynar.
Genellikle bu tür AI modelleri, verilerden tahminlerde bulunmak için derin öğrenme tekniklerini kullanır. Bu sistemler oldukça etkili olabilse de, her zaman doğru tahminler üretmezler. Bazı çıktılar doğru olabilirken, diğerleri hedefi ıskalayabilir.
Bu hataların nasıl oluştuğunu bilmek, bir modelin ne kadar iyi performans gösterdiğini değerlendirmenin önemli bir parçasıdır. Performansı ölçmek için model değerlendirme metriklerini kullanabiliriz.
Yaygın değerlendirme metrikleri arasında doğruluk (genel doğruluk), kesinlik (pozitif tahminlerin güvenilirliği) ve duyarlılık (modelin gerçek pozitifleri ne kadar iyi tanımladığı) yer alır. İlk bakışta benzer görünebilirler, ancak her biri model davranışının farklı bir kısmına odaklanır.
Bu makalede, bu AI modeli performans metriklerinin her birine daha yakından bakacağız. Ayrıca birbirleriyle nasıl ilişkili olduklarını ve kullanım durumun için doğru olanı nasıl seçeceğini keşfedeceğiz. Hadi başlayalım!
Link to this sectionMakine öğreniminde model değerlendirme metrikleri önemlidir#
Bir makine öğrenimi modeli başlangıçta iyi performans gösteriyor gibi görünebilir. Ancak doğru değerlendirme metrikleri olmadan, sonuçlarının ne kadar doğru olduğunu anlamak zordur. Bu metrikler model değerlendirmesine yapı kazandırır ve temel bir soruyu yanıtlamaya yardımcı olur: Modelin tahminleri belirli bir görev için kullanışlı ve güvenilir mi?
Doğruluk, kesinlik ve duyarlılık gibi metrikler, AI geliştiricilerine bir modelin ne kadar iyi çalıştığını ölçmek için net bir yol sunar. Örneğin, farklı modelleri karşılaştırırken bu metrikler, belirli bir görev için hangisinin en iyi performansı gösterdiğini görmeyi mümkün kılar. Performansı değerlendirmeye ve bir AI projesinin hedeflerine en uygun modelin seçilmesine yardımcı olurlar.

Şekil 1. Model eğitimi ve değerlendirme iş akışı (Kaynak)
Bu metrikler aynı zamanda performans karşılaştırmalarını daha objektif hale getirir. Tahminlere veya eksik gözlemlere güvenmek yerine, bir modelin farklı durumlarda nasıl davrandığına dair ölçülebilir içgörüler sağlarlar. Bunu yaparak, her bağlamda performansın hangi yönlerinin daha önemli olduğunu vurgularlar.
Örneğin, metrik seçimi genellikle uygulamaya bağlıdır. AI sağlık uygulamalarında, hedef mümkün olduğunca çok pozitif vaka tanımlamak olduğu için duyarlılık önemlidir, bazı negatif vakalar yanlışlıkla işaretlense bile. Buna karşılık, bir e-posta spam filtresi, meşru e-postaları yanlışlıkla spam olarak işaretlememek için kesinliğe öncelik verebilir.
Link to this sectionKarmaşıklık matrisi (Confusion matrix): Sınıflandırma metriklerinin temeli#
Karmaşıklık matrisi, AI modellerini değerlendirmek için temel olan ikiye ikilik bir tablodur. Tahminleri, gerçek sonuçları tahmin edilen sonuçlarla (modelin verdiği cevaplar) karşılaştırarak dört kategoriye ayırır.
Bu karşılaştırma, modelin performansına dair ayrıntılı bir görünüm sağlar. Matristeki değerlerden doğrudan hesaplanan kesinlik ve duyarlılık gibi temel değerlendirme metriklerinin temelini oluşturur.
Tablonun satırları gerçek sınıfları, sütunları ise tahmin edilen sınıfları temsil eder. Her hücre, o kategorideki sonuçların sayısını gösterir. Basitçe ifade etmek gerekirse, kaç tahminin doğru olduğunu ve modelin yaptığı hata türlerini sergiler.
Karmaşıklık matrisi, veriler dengesiz olduğunda, yani bazı kategoriler diğerlerinden çok daha fazla örneğe sahip olduğunda özellikle yararlıdır. Ayrıca farklı hata türlerinin farklı maliyetleri olduğunda da yardımcı olur.
Örneğin, dolandırıcılık tespitinde, dolandırıcılık faaliyetlerini yakalamak kritiktir, ancak gerçek işlemleri yanlışlıkla işaretlemek de sorunlara yol açabilir. Matris, her hata türünün ne sıklıkla gerçekleştiğini netleştirir.
Link to this sectionKarmaşıklık matrisinin öğeleri#
İşte bir karmaşıklık matrisindeki farklı öğelere genel bir bakış:
- Gerçek pozitif (TP): Model pozitif bir durumu doğru tahmin ettiğinde, gerçek pozitif olarak kaydedilir. Örneğin, bir bilgisayarlı görü modeli bir görüntüdeki aracı doğru şekilde sınıflandırır.
- Gerçek negatif (TN): Model negatif bir durumu doğru tanımladığında gerçek negatif oluşur. Örneğin, bir e-posta sınıflandırıcı normal bir iletiyi spam değil olarak işaretler.
- Yanlış pozitif (FP): Model, aslında negatif olan bir durum için yanlışlıkla pozitif bir sonuç tahmin ettiğinde yanlış pozitif üretir. Tip I Hata olarak da bilinir; bir dolandırıcılık tespit sistemi geçerli bir işlemi dolandırıcılık olarak işaretlediğinde bu durum gerçekleşebilir.
- Yanlış negatif (FN): Model pozitif bir durumu tespit edemediğinde ve yanlışlıkla negatif olarak tahmin ettiğinde yanlış negatif kaydedilir. Tip II Hata olarak da adlandırılır; bir tanı aracı, aslında hasta olan bir kişide hastalığı gözden kaçırdığında bu durum oluşabilir.

Şekil 2. Karmaşıklık matrisinin öğeleri (Kaynak)
Link to this sectionKarmaşıklık matrisinin görsel temsili ve yorumlanması#
Karmaşıklık matrisi ızgara biçiminde görüntülenir. Dikey eksen gerçek sınıfları, yatay eksen ise tahmin edilen sınıfları gösterir. Doğru tahminler, gerçek pozitifleri ve gerçek negatifleri temsil edecek şekilde köşegen boyunca görünür.
Hatalar, yanlış pozitifleri ve yanlış negatifleri kapsayacak şekilde köşegenin dışında kalır. Bu yapı, güçlü ve zayıf yönleri tespit etmeyi kolaylaştırır.
Link to this sectionMakine öğreniminde doğruluk (accuracy) nedir?#
Doğruluk, bir makine öğrenimi modelinin ne kadar iyi performans gösterdiğini değerlendirmek için en yaygın kullanılan metriklerden biridir. Tüm sınıflar genelinde tahminlerin ne sıklıkla doğru olduğunu ölçer. Başka bir deyişle, basit bir soruyu yanıtlar: AI modelinin yaptığı tüm tahminlerden kaç tanesi doğruydu?
Doğruluk formülü, doğru tahminlerin sayısının (gerçek pozitifler ve gerçek negatifler dahil) toplam tahmin sayısına bölünmesidir. Doğruluğu hesaplamak kolaydır ve anlaşılması basittir, bu da onu model değerlendirmesinde yaygın bir başlangıç noktası yapar.
Genel olarak, dengeli veri kümeleriyle çalışırken doğruluk güvenilirdir. Ancak doğruluk, bir sınıfın diğerlerine baskın geldiği dengesiz veri kümelerinde genellikle yanıltıcı olabilir. Her zaman çoğunluk sınıfını tahmin eden bir model, azınlık sınıflarını tespit edemese bile yine de yüksek bir doğruluk puanı elde edebilir.
Örneğin, sadece birkaç görüntünün yaya içerdiği bir görüntü veri kümesinde, her görüntü için “yaya yok” tahmini yapan bir model yine de yüksek doğruluk elde edebilir ancak gerçek yayaları tespit etmede tamamen başarısız olabilir.
Bunun nedeni, doğruluğun kendi başına modelin ne tür hatalar yaptığını veya bunların ne sıklıkla gerçekleştiğini göstermemesidir. Bu nedenle, bir AI modelinin ne kadar iyi çalıştığını tam olarak anlamak için kesinlik ve duyarlılık gibi metrikleri de incelemek önemlidir.
Link to this sectionKesinliğin (precision) derinlemesine incelenmesi: Yanlış alarmları en aza indirme#
Kesinlik, bir modelin pozitif tahminlerinin doğruluğunu ölçen önemli bir değerlendirme metriğidir. Şu soruyu yanıtlar: Pozitif olarak tahmin edilen tüm örneklerden kaç tanesi doğruydu?
Kesinlik formülü, gerçek pozitiflerin sayısının, gerçek pozitifler ve yanlış pozitiflerin toplamına bölünmesidir. Yanlış çıkması durumunda maliyetli olacak pozitif bir tahmin söz konusu olduğunda özellikle önemlidir.

Şekil 3. Doğruluk ve kesinliğin karşılaştırılması. (Kaynak)
Örneğin, dolandırıcılık tespitinde, düşük kesinliğe sahip bir model birçok geçerli işlemi dolandırıcılık olarak işaretleyebilir ve hem kullanıcılar hem de destek ekipleri için gereksiz sorunlar yaratabilir. Yüksek kesinliğe sahip bir model, işaretlenen işlemlerin gerçek dolandırıcılık olma olasılığını artırarak bu riski azaltır.
Yüksek kesinlik iyi olsa da, buna çok fazla odaklanan modeller çok seçici hale gelebilir ve gerçek pozitif vakaları kaçırabilir. Bu nedenle kesinlik metriği, performansı dengeli tutmak için genellikle duyarlılık ile birlikte kontrol edilir.
Link to this sectionDuyarlılık (recall) nedir?#
Duyarlılık, bir modelin gerçek pozitif vakaları ne kadar iyi tanımladığını ölçmek için kullanılan bir metriktir. Hassasiyet veya gerçek pozitif oranı olarak bilinir ve şu soruyu yanıtlar: Tüm gerçek pozitif örneklerden kaç tanesini model doğru şekilde tespit etti?
Duyarlılık formülü, gerçek pozitiflerin sayısının, gerçek pozitifler ve yanlış negatiflerin toplamına bölünmesidir. Yüksek bir duyarlılık puanı, modelin verilerdeki gerçek pozitif vakaların çoğunu yakaladığını gösterir.
Duyarlılık, bir durumu tespit edememenin tedaviyi geciktirebileceği ve hastaları riske atabileceği sağlık gibi sektörlerde çok önemlidir. Bazı negatif vakalar yanlışlıkla işaretlense bile, tüm gerçek vakaları tanımlamak en önemli öncelik olmaya devam eder.
Ancak, sadece duyarlılığa odaklanan modeller çok fazla yanlış pozitif işaretleyebilir, bu da kesinliği düşürür ve modelin genel verimliliğine zarar verir. Duyarlılık ve kesinliği dengelemek, güvenilir AI model performansı için çok önemlidir.
Link to this sectionDengeleme eylemi: Kesinlik ve duyarlılık ödünleşimi#
Kesinlik ve duyarlılık genellikle zıt yönlerde hareket eder. Biri iyileştiğinde, diğeri düşebilir. Bu ödünleşim, makine öğrenimi görevlerinde yaygın bir zorluktur.
Yüksek kesinliğe sahip bir model, bir şeyi ancak emin olduğunda pozitif olarak tahmin eder. Bu, yanlış alarmları azaltır ancak gerçek pozitifleri kaçırabilir, bu da duyarlılığı düşürür. Her pozitif durumu yakalamaya çalışan bir model duyarlılığı artırır ancak daha fazla yanlış alarm riski taşır, bu da kesinliği düşürür.
Bu ödünleşim, modelin karar eşiğini ayarladığında daha net hale gelir. Eşik, bir sistemin puanı veya olasılığı bir eyleme veya etikete dönüştürmek için kullandığı kesme noktasıdır. Eşiği düşürmek, sistemin daha sık pozitif hareket etmesini sağlar; bu, duyarlılığı artırabilir ancak kesinliği azaltabilir. Eşiği yükseltmek tam tersi bir etkiye sahiptir: model daha az pozitif tahmin eder, kesinlik artar ancak duyarlılık genellikle düşer.
Diyelim ki spam tespiti üzerinde çalışıyorsun. Model, gelen kutusuna spam girmesi riski ile gerçek e-postaları engelleme riski arasında denge kurmalıdır. Katı bir filtre bazı spam'leri yine de kaçırabilirken, daha esnek bir filtre yanlışlıkla meşru iletileri engelleyebilir. Doğru denge, kullanım durumuna ve her hata türünün maliyetine bağlıdır.
Link to this sectionKesinlik-duyarlılık eğrisinin önemi#
Kesinlik-duyarlılık eğrisi veya PR eğrisi, modelin karar eşiği değiştikçe kesinlik ve duyarlılığın nasıl değiştiğini gösterir. Her nokta, ikisi arasında farklı bir ödünleşimi temsil eder. PR eğrisi, bir sınıfın çok daha az sıklıkta olduğu dengesiz veri kümeleri için özellikle yararlıdır.
Ayrıca, farklı karar eşiklerinde bir modelin pozitifleri negatiflerden ne kadar iyi ayırdığını gösteren Alıcı İşletim Karakteristiği (ROC) eğrisinden daha anlamlı bir içgörü sağlar. Hem yüksek kesinliğe hem de yüksek duyarlılığa sahip bir model, genellikle ideal olan sağ üst köşeye yakın kalan bir kesinlik-duyarlılık eğrisine sahip olacaktır.
Link to this sectionF1-score ile tanışın: Denge için birleşik bir metrik#
F1-score, kesinlik ve duyarlılık arasındaki dengeyi yakalayan tek bir değer sağlar. F1-score, kesinlik ve duyarlılığın çarpımının iki katının, kesinlik ve duyarlılığın toplamına bölünmesiyle hesaplanır. Hem yanlış pozitiflerin hem de yanlış negatiflerin önemli olduğu durumlarda, dengesiz veri kümeleriyle çalışırken veya model performansının dengeli bir görünümüne ihtiyaç duyulduğunda yararlıdır.

Şekil 4. Kesinlik ve duyarlılık kullanarak F1-score hesaplama (Kaynak)
Link to this sectionDoğruluk, kesinlik ve duyarlılığın ötesinde#
Doğruluk, kesinlik ve duyarlılık temel olsa da, diğer metrikler model türüne ve veri kümesi özelliklerine göre ek içgörüler sunar.
İşte performansın farklı yönlerini değerlendirmeye yardımcı olan bazı yaygın kullanılan metrikler:
- Özgüllük (Specificity): Modelin gerçek negatifleri ne kadar iyi tanımladığını ölçer. Yanlış pozitiflerden kaçınmanın önemli olduğu durumlarda yararlıdır.
- AUC: AUC veya Eğri Altındaki Alan, modelin sınıflar arasında ne kadar iyi ayrım yapabildiğini yansıtan tek bir puan verir.
- Log loss: Log loss, tahmin yaparken modelin ne kadar emin olduğunu ölçmek için kullanılır ve yüksek güvenle yapılan yanlış tahminlere daha fazla ceza verir. Burada güven, modelin tahmini hakkında ne kadar emin olduğunu ifade eder.
- Çok etiketli değerlendirme: Çok etiketli görevlerde, metrikler genel model performansını yansıtacak şekilde etiketler genelinde ortalaması alınır.
Link to this sectionDoğruluk, kesinlik ve duyarlılığı bilgisayarlı görüde uygulama#
Artık doğruluk, kesinlik ve duyarlılık hakkında daha net bir anlayışa sahip olduğumuza göre, bu metriklerin bilgisayarlı görüde nasıl uygulandığına bakalım.
Ultralytics YOLO11 gibi bilgisayarlı görü modelleri, modelin bir görüntüdeki nesnelerin neler olduğunu tanımladığı ve bunları sınırlayıcı kutular kullanarak yerleştirdiği nesne algılama gibi görevleri destekler. Her tahmin hem nesne etiketini hem de konumunu içerir, bu da değerlendirmeyi sadece bir etiketin doğru olup olmadığını kontrol etmekten daha karmaşık hale getirir.

Şekil 5. Nesne algılama için Ultralytics YOLO11 kullanma örneği. (Kaynak)
Kameraların raflardaki ürünleri otomatik olarak takip etmek için kullanıldığı bir perakende uygulamasını düşün. Bir nesne algılama modeli mısır gevreği kutuları, soda kutuları veya su şişeleri gibi ürünleri tanımlayabilir ve konumlarını işaretleyebilir.
Bu durumda kesinlik, algılanan öğelerden kaçının aslında doğru olduğunu söyler. Yüksek kesinlik, sistemin bir gölgeyi veya arka plan nesnesini ürün olarak etiketlemek gibi yanlış pozitiflerden kaçındığı anlamına gelir. Duyarlılık, modelin raftaki gerçek ürünlerden kaçını tespit etmeyi başardığını gösterir. Yüksek duyarlılık, daha az öğenin kaçırıldığı anlamına gelir; bu, doğru envanter sayıları için kritiktir.
Doğruluk yine de genel bir doğruluk ölçüsü sağlayabilir, ancak bu tür bir ortamda birkaç ürünü bile kaçırmak veya orada olmayan öğeleri algılamak stok yönetimi üzerinde büyük bir etkiye sahip olabilir. Geliştiricilerin sistemin hem güvenilir hem de gerçek dünya kullanımı için pratik olmasını sağlamak adına kesinlik, duyarlılık ve doğruluğa birlikte bakmalarının nedeni budur.
Link to this sectionDoğruluk, kesinlik ve duyarlılık: Temel çıkarımlar#
Doğruluk, kesinlik ve duyarlılığın her biri bir makine öğrenimi modelinin performansının farklı yönlerini sergiler. Sadece tek bir metriğe güvenmek yanıltıcı olabilir.
Karmaşıklık matrisi, kesinlik-duyarlılık eğrileri ve F1-score gibi araçlar ve metrikler, ödünleşimleri ortaya çıkarmaya ve ML modelinde iyileştirmeler yapma konusundaki kararlara rehberlik etmeye yardımcı olur. Belirli bir AI çözümü için doğru metrik kombinasyonunu seçerek, modellerin gerçek dünya uygulamalarında doğru, güvenilir ve etkili olmasını sağlayabilirsin.
Büyüyen topluluğumuzu keşfet! AI hakkında daha fazla bilgi edinmek için GitHub depomuza göz at. Bilgisayarlı görü projelerine başlamaya hazır mısın? Lisanslama seçeneklerimize bir göz at. Çözüm sayfalarımızı ziyaret ederek tarımda AI ve robotikte vizyon AI hakkında bilgi edin!






