Makine Öğreniminde Doğruluk, Kesinlik ve Geri Çağırma hakkında bilgi edinin. Karışıklık Matrisi, F1 Puanı ve bu önemli değerlendirme metriklerinin nasıl kullanılacağını keşfedin.

Makine Öğreniminde Doğruluk, Kesinlik ve Geri Çağırma hakkında bilgi edinin. Karışıklık Matrisi, F1 Puanı ve bu önemli değerlendirme metriklerinin nasıl kullanılacağını keşfedin.
Makine öğrenimi (ML), verilerden öğrenen sistemler oluşturmaya odaklanan bir yapay zeka (AI) dalıdır. Makinelerin görüntüleri yorumladığı bilgisayarla görme ve insan dilini anlayıp ürettiği doğal dil işleme de dahil olmak üzere yapay zekanın diğer birçok alanında merkezi bir rol oynar.
Bu tür yapay zeka modelleri genellikle verilerden tahminler yapmak için derin öğrenme tekniklerini kullanır. Bu tür sistemler oldukça etkili olsalar da, her zaman doğru tahminler üretmezler. Bazı çıktılar doğru olabilirken, diğerleri hedefi ıskalayabilir.
Bu hataların nasıl oluştuğunu bilmek, bir modelin ne kadar iyi performans gösterdiğini değerlendirmenin önemli bir parçasıdır. Performansı ölçmek için model değerlendirme metriklerini kullanabiliriz.
Yaygın değerlendirme ölçütleri arasında doğruluk (genel doğruluk), kesinlik (pozitif tahminlerin güvenilirliği) ve geri çağırma (modelin gerçek pozitifleri ne kadar iyi tanımladığı) yer alır. İlk başta benzer görünebilirler, ancak her biri bir modelin davranışının farklı bir kısmına odaklanır.
Bu makalede, bu yapay zeka modeli performans ölçümlerinin her birine daha yakından bakacağız. Ayrıca birbirleriyle nasıl ilişkili olduklarını ve kullanım durumunuz için doğru olanı nasıl seçeceğinizi keşfedeceğiz. Hadi başlayalım!
Bir makine öğrenimi modeli ilk başta iyi performans gösteriyor gibi görünebilir. Ancak doğru değerlendirme metrikleri olmadan sonuçlarının ne kadar doğru olduğunu anlamak zordur. Bu metrikler model değerlendirmesine yapı kazandırır ve kilit bir soruyu yanıtlamaya yardımcı olur: Modelin tahminleri belirli bir görev için faydalı ve güvenilir mi?
Doğruluk, kesinlik ve geri çağırma gibi metrikler yapay zeka geliştiricilerine bir modelin ne kadar iyi çalıştığını ölçmek için net bir yol sunar. Örneğin, farklı modelleri karşılaştırırken, bu metrikler belirli bir görev için hangisinin en iyi performansı gösterdiğini görmeyi mümkün kılar. Performansı değerlendirmeye yardımcı olurlar ve bir YZ projesinin hedeflerine en uygun modelin seçimine rehberlik ederler.
Bu metrikler ayrıca performans karşılaştırmalarını daha objektif hale getirir. Tahminlere veya eksik gözlemlere dayanmak yerine, bir modelin farklı durumlarda nasıl davrandığına dair ölçülebilir içgörüler sağlarlar. Bunu yaparak, her bağlamda performansın hangi yönlerinin daha önemli olduğunu vurgularlar.
Örneğin, metrik seçimi genellikle uygulamaya bağlıdır. Yapay zeka sağlık uygulamalarında geri çağırma önemlidir çünkü amaç, bazı negatifler yanlışlıkla işaretlense bile mümkün olduğunca çok sayıda pozitif vakayı tespit etmektir. Buna karşılık, bir e-posta spam filtresi, meşru e-postaların yanlışlıkla spam olarak işaretlenmesini önlemek için hassasiyete öncelik verebilir.
Karışıklık matrisi, yapay zeka modellerini değerlendirmek için temel olan ikiye iki bir tablodur. Gerçek sonuçları tahmin edilen sonuçlarla (modelin verdiği cevaplar) karşılaştırarak tahminleri dört kategoride düzenler.
Bu karşılaştırma, modelin performansının ayrıntılı bir görünümünü sağlar. Doğrudan matristeki değerlerden hesaplanan hassasiyet ve geri çağırma gibi temel değerlendirme metriklerinin temelini oluşturur.
Tablonun satırları gerçek sınıfları, sütunları ise tahmin edilen sınıfları temsil etmektedir. Her hücre o kategorideki sonuçların sayısını gösterir. Basitçe söylemek gerekirse, kaç tahminin doğru olduğunu ve modelin ne tür hatalar yaptığını gösterir.
Karışıklık matrisi özellikle veriler dengesiz olduğunda, yani bazı kategoriler diğerlerinden çok daha fazla örneğe sahip olduğunda kullanışlıdır. Farklı hata türleri farklı maliyetler taşıdığında da faydalıdır.
Örneğin, dolandırıcılık tespitinde, hileli faaliyetlerin yakalanması kritik öneme sahiptir, ancak gerçek işlemlerin yanlış işaretlenmesi de sorunlara neden olabilir. Matris, her bir hata türünün ne sıklıkla meydana geldiğini açıkça ortaya koymaktadır.
İşte bir karışıklık matrisindeki farklı unsurlara genel bir bakış:
Bir karışıklık matrisi ızgara biçiminde görüntülenir. Dikey eksen gerçek sınıfları, yatay eksen ise tahmin edilen sınıfları gösterir. Doğru tahminler, gerçek pozitifleri ve gerçek negatifleri temsil eden diyagonal boyunca görünür.
Hatalar, yanlış pozitifleri ve yanlış negatifleri kapsayacak şekilde köşegenin dışında kalır. Bu yapı, güçlü ve zayıf yönlerin tespit edilmesini kolaylaştırır.
Doğruluk, bir makine öğrenimi modelinin ne kadar iyi performans gösterdiğini değerlendirmek için en yaygın kullanılan ölçütlerden biridir. Tahminlerin tüm sınıflarda ne sıklıkla doğru olduğunu ölçer. Başka bir deyişle, basit bir soruyu yanıtlar: Yapay zeka modelinin yaptığı tüm tahminlerden kaç tanesi doğru çıktı?
Doğruluk formülü, doğru tahminlerin sayısının (hem gerçek pozitifleri hem de gerçek negatifleri içerir) toplam tahmin sayısına bölünmesiyle elde edilir. Doğruluğun hesaplanması ve anlaşılması kolaydır, bu da onu model değerlendirmede yaygın bir başlangıç noktası haline getirir.
Genel olarak, dengeli veri kümeleri kullanıldığında doğruluk güvenilirdir. Ancak, bir sınıfın diğerlerine baskın olduğu dengesiz veri kümelerinde doğruluk genellikle yanıltıcı olabilir. Her zaman çoğunluk sınıfını tahmin eden bir model, diğer azınlık sınıflarını tespit edemezken yine de yüksek bir doğruluk puanı elde edebilir.
Örneğin, yalnızca birkaç görüntünün yaya içerdiği bir görüntü veri kümesinde, her görüntü için "yaya yok" tahmininde bulunan bir model yine de yüksek doğruluk elde edebilir ancak gerçek yayaları tespit etmekte tamamen başarısız olabilir.
Bunun nedeni, doğruluğun tek başına bir modelin ne tür hatalar yaptığını veya bunların ne sıklıkta gerçekleştiğini göstermemesidir. Bu nedenle, bir yapay zeka modelinin ne kadar iyi çalıştığını tam olarak anlamak için hassasiyet ve geri çağırma gibi ölçümlere de bakmak önemlidir.
Kesinlik, bir modelin pozitif tahminlerinin doğruluğunu ölçen önemli bir değerlendirme metriğidir. Şu soruyu yanıtlar: Pozitif olarak tahmin edilen tüm örneklerden kaç tanesi doğruydu?
Kesinlik formülü, doğru pozitiflerin sayısının doğru pozitifler ve yanlış pozitiflerin toplamına bölünmesiyle elde edilir. Pozitif bir tahminin yanlış çıkması durumunda maliyetli olacağı durumlarda özellikle önemlidir.
Örneğin, dolandırıcılık tespitinde, düşük hassasiyete sahip bir model birçok geçerli işlemi dolandırıcılık olarak işaretleyebilir ve hem kullanıcılar hem de destek ekipleri için gereksiz sorunlar yaratabilir. Yüksek hassasiyete sahip bir model, işaretlenen işlemlerin gerçek dolandırıcılık olma olasılığının daha yüksek olmasını sağlayarak bu riski azaltır.
Yüksek hassasiyet iyi olsa da, buna çok fazla odaklanan modeller çok seçici olabilir ve gerçek pozitif vakaları kaçırabilir. Bu nedenle, performansı dengede tutmak için hassasiyet metriği genellikle geri çağırma ile birlikte kontrol edilir.
Geri çağırma, bir modelin gerçek pozitif vakaları ne kadar iyi tanımladığını ölçmek için kullanılan bir metriktir. Duyarlılık veya gerçek pozitif oran olarak bilinir ve şu soruya yanıt verir: Tüm gerçek pozitif örneklerden kaç tanesini model doğru tespit etti?
Geri çağırma formülü, gerçek pozitiflerin sayısının gerçek pozitifler ve yanlış negatiflerin toplamına bölünmesiyle elde edilir. Yüksek bir geri çağırma puanı, modelin verilerdeki gerçek pozitif vakaların çoğunu yakaladığını gösterir.
Geri çağırma, bir durumun tespit edilememesinin tedaviyi geciktirebileceği ve hastaları riske atabileceği sağlık hizmetleri gibi sektörlerde çok önemlidir. Bazı olumsuz vakalar yanlış işaretlense bile, tüm gerçek vakaların tespit edilmesi en önemli öncelik olmaya devam etmektedir.
Bununla birlikte, yalnızca geri çağırmaya odaklanan modeller çok fazla yanlış pozitif işaretleyebilir, bu da hassasiyeti düşürür ve modelin genel verimliliğine zarar verir. Geri çağırma ve hassasiyeti dengelemek, güvenilir yapay zeka modeli performansı için çok önemlidir.
Kesinlik ve geri çağırma genellikle zıt yönlerde hareket eder. Biri iyileştiğinde diğeri düşebilir. Bu değiş tokuş, makine öğrenimi görevlerinde yaygın bir zorluktur.
Yüksek hassasiyetli bir model, bir şeyi yalnızca kendinden emin olduğunda pozitif olarak tahmin eder. Bu yanlış alarmları azaltır ancak gerçek pozitifleri kaçırabilir, bu da geri çağırmayı düşürür. Her pozitif değeri yakalamaya çalışan bir model geri çağırmayı artırır ancak daha fazla yanlış alarm riski taşır, bu da hassasiyeti düşürür.
Modelin karar eşiğini ayarladığınızda bu değiş tokuş daha net hale gelir. Eşik, bir sistemin bir puanı veya olasılığı bir eyleme veya etikete dönüştürmek için kullandığı kesme noktasıdır. Eşiği düşürmek sistemin daha sık olumlu davranmasını sağlar, bu da geri çağırmayı artırabilir ancak kesinliği azaltabilir. Eşiği yükseltmek ise tam tersi bir etki yaratır: model daha az pozitif tahmin eder, hassasiyet artar ancak geri çağırma genellikle düşer.
Diyelim ki spam tespiti üzerinde çalışıyorsunuz. Model, spam'in gelen kutusuna girmesine izin verme riski ile gerçek e-postaları engelleme riskini dengelemelidir. Katı bir filtre yine de bazı spam'leri kaçırabilirken, daha yumuşak bir filtre yanlışlıkla meşru mesajları engelleyebilir. Doğru denge, kullanım durumuna ve her bir hata türünün maliyetine bağlıdır.
Kesinlik-geri çağırma eğrisi veya PR eğrisi, modelin karar eşiği değiştikçe kesinlik ve geri çağırmanın nasıl değiştiğini gösterir. Her nokta, ikisi arasındaki farklı bir dengeyi temsil eder. PR eğrisi özellikle bir sınıfın çok daha az sıklıkta görüldüğü dengesiz veri kümeleri için kullanışlıdır.
Ayrıca, bir modelin farklı karar eşiklerinde pozitifleri negatiflerden ne kadar iyi ayırdığını da gösteren Alıcı İşletim Karakteristiği (ROC) eğrisinden daha anlamlı bilgiler sağlar. Hem yüksek hassasiyete hem de yüksek geri çağırmaya sahip bir model, genellikle ideal olan sağ üst köşeye yakın duran bir hassasiyet-geri çağırma eğrisine sahip olacaktır.
F1-skoru, hassasiyet ve geri çağırma arasındaki dengeyi yakalayan tek bir değer sağlar. F1-skoru, hassasiyet ve geri çağırma çarpımının iki katının, hassasiyet ve geri çağırma toplamına bölünmesiyle hesaplanır. Hem yanlış pozitifler hem de yanlış negatifler önemli olduğunda ve dengesiz veri kümeleriyle çalışırken veya model performansının dengeli bir görünümüne ihtiyaç duyulduğunda kullanışlıdır.
Doğruluk, kesinlik ve geri çağırma esas olmakla birlikte, diğer ölçütler model türüne ve veri kümesi özelliklerine bağlı olarak ek bilgiler sunar.
Performansın farklı yönlerini değerlendirmeye yardımcı olan ve yaygın olarak kullanılan bazı metrikler aşağıda verilmiştir:
Artık doğruluk, kesinlik ve geri çağırma hakkında daha net bir anlayışa sahip olduğumuza göre, bu metriklerin bilgisayarla görmede nasıl uygulandığını inceleyelim.
Ultralytics YOLO11 gibi bilgisayarla görme modelleri, modelin bir görüntüde hangi nesnelerin bulunduğunu belirlediği ve bunları sınırlayıcı kutular kullanarak konumlandırdığı nesne algılama gibi görevleri destekler. Her tahmin hem nesne etiketini hem de konumunu içerir, bu da değerlendirmeyi sadece bir etiketin doğru olup olmadığını kontrol etmekten daha karmaşık hale getirir.
Raflardaki ürünleri otomatik olarak izlemek için kameraların kullanıldığı bir perakende uygulamasını düşünün. Bir nesne algılama modeli mısır gevreği kutuları, soda kutuları veya su şişeleri gibi öğeleri tanımlayabilir ve konumlarını işaretleyebilir.
Bu durumda, hassasiyet bize tespit edilen öğelerin kaç tanesinin gerçekten doğru olduğunu söyler. Yüksek hassasiyet, sistemin bir gölge veya arka plan nesnesini ürün olarak etiketlemek gibi yanlış pozitifleri önlediği anlamına gelir. Geri çağırma, modelin raftaki gerçek ürünlerden kaçını tespit etmeyi başardığını gösterir. Yüksek geri çağırma, daha az ürünün gözden kaçtığı anlamına gelir ki bu da doğru envanter sayımları için kritik önem taşır.
Doğruluk yine de genel bir doğruluk ölçüsü sağlayabilir, ancak bu tür bir ortamda, birkaç ürünü bile kaçırmak veya olmayan ürünleri tespit etmek stok yönetimi üzerinde büyük bir etkiye sahip olabilir. Bu nedenle geliştiriciler, sistemin gerçek dünyada kullanım için hem güvenilir hem de pratik olmasını sağlamak için hassasiyet, geri çağırma ve doğruluğa birlikte bakarlar.
Doğruluk, kesinlik ve geri çağırmanın her biri bir makine öğrenimi modelinin performansının farklı yönlerini gösterir. Sadece tek bir metriğe güvenmek yanıltıcı olabilir.
Karışıklık matrisi, kesinlik-hatırlama eğrileri ve F1-skoru gibi araçlar ve metrikler, ödünleşimleri ortaya çıkarmaya ve makine öğrenimi modelinde iyileştirmeler yapma kararlarına rehberlik etmeye yardımcı olur. Belirli bir yapay zeka çözümü için doğru metrik kombinasyonunu seçerek, modellerin gerçek dünya uygulamalarında doğru, güvenilir ve etkili olmasını sağlayabilirsiniz.
Büyüyen topluluğumuzu keşfedin! Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuza göz atın. Bilgisayarla görme projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize bir göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zekayı ve robotikte yapay zekayı keşfedin!