Nesne Algılamada Ortalama Kesinlik (mAP) Değerini Anlayın. Anlamını, hesaplanmasını ve mAP'nin model performansını değerlendirmek için neden önemli olduğunu öğrenin.

Nesne Algılamada Ortalama Kesinlik (mAP) Değerini Anlayın. Anlamını, hesaplanmasını ve mAP'nin model performansını değerlendirmek için neden önemli olduğunu öğrenin.
YZ adaptasyonu hızla büyüyor ve YZ, sürücüsüz otomobillerden raflardaki ürünleri tanımlayabilen perakende sistemlerine kadar çeşitli yeniliklere entegre ediliyor. Bu teknolojiler, makinelerin görsel verileri analiz etmesini sağlayan bir yapay zeka (YZ) dalı olan bilgisayarlı görüye dayanmaktadır.
Bilgisayar görüşü sistemlerinin ve algoritmalarının doğruluğunu ölçmek için kullanılan temel bir değerlendirme metriği, ortalama ortalama hassasiyettir (mAP). mAP metriği, bir Görüntü İşleme Yapay Zeka modelinin tahmininin gerçek dünya sonuçlarıyla ne kadar yakından eşleştiğini gösterir.
Yaygın bir bilgisayarla görme görevi, bir modelin bir görüntüdeki birden çok nesneyi tanımladığı ve etraflarına sınırlayıcı kutular çizdiği nesne tespitidir. mAP, nesne tespiti modellerinin performansını değerlendirmek için kullanılan standart metriktir ve Ultralytics YOLO11 gibi derin öğrenme modellerini kıyaslamak için yaygın olarak kullanılır.
Bu makalede, ortalama hassasiyetin (mean average precision) nasıl hesaplandığını ve nesne algılama modellerini eğiten veya değerlendiren herkes için neden bu kadar önemli olduğunu göreceğiz. Haydi başlayalım!
Ortalama hassasiyet, bir derin öğrenme modelinin, bir görüntüdeki farklı nesneleri tespit etme ve tanımlama gibi görsel bilgi alma ile ilgili görevlerde ne kadar doğru olduğunu gösteren bir puandır. Örneğin, bir köpek, bir kedi ve bir araba içeren bir fotoğrafı analiz eden bir nesne algılama modelini düşünün. Güvenilir bir model, her nesneyi tanıyarak ve etrafına sınırlayıcı kutular ve etiketler çizerek, nerede olduğunu ve ne olduğunu vurgulayarak nesne tespiti gerçekleştirebilir.
mAP, modelin bu görevi birçok görüntü ve farklı türdeki nesneler genelinde ne kadar iyi gerçekleştirdiğini gösterir. Modelin her nesneyi ve görüntü içindeki konumunu doğru bir şekilde tanımlayıp tanımlamadığını kontrol eder. Puan 0 ile 1 arasında değişir; burada bir, modelin her şeyi mükemmel bir şekilde bulduğu anlamına gelir ve sıfır, herhangi bir nesneyi algılayamadığı anlamına gelir.
Makine öğreniminde ortalama kesinlik kavramlarının arkasındaki kavramları keşfetmeden önce, iki temel terimi daha iyi anlayalım: gerçek değer ve tahminler.
Ground truth (gerçek değer), nesnelerin ve görüntülerdeki konumlarının insanlar tarafından dikkatlice etiketlenmesiyle elde edilen doğru referans verilerini ifade eder ve bu işlem "etiketleme" olarak bilinir. Tahminler ise, yapay zeka modellerinin bir görüntüyü analiz ettikten sonra verdiği sonuçlardır. Yapay zeka modelinin tahminlerini ground truth ile karşılaştırarak, modelin doğru sonuçlara ne kadar yaklaştığını ölçebiliriz.
Bir karmaşıklık matrisi, bir nesne algılama modelinin ne kadar hassas olduğunu anlamak için sıklıkla kullanılır. Modelin tahminlerinin gerçek doğru cevaplarla (temel gerçek) nasıl eşleştiğini gösteren bir tablodur. Bu tablodan, dört temel bileşenin veya sonucun bir dökümünü alabiliriz: gerçek pozitifler, yanlış pozitifler, yanlış negatifler ve gerçek negatifler.
İşte bu bileşenlerin karmaşıklık matrisinde (confusion matrix) neyi temsil ettiği:
Doğru negatife, bir görüntüdeki birçok boş bölgeyi genellikle göz ardı ettiğimiz için, nesne algılamada yaygın olarak kullanılmaz. Ancak, modelin görüntüye bir etiket atadığı görüntü sınıflandırması gibi diğer bilgisayarlı görü görevlerinde önemlidir. Örneğin, görev bir görüntünün bir kedi içerip içermediğini tespit etmekse ve model görüntünün bir kedi içermediği durumlarda doğru bir şekilde "kedi yok" olarak tanımlarsa, bu doğru negatiftir.
Nesne algılama modellerini değerlendirmede bir diğer önemli metrik, Kesişim Bölgesi (IoU) değeridir. Bu tür Görüntü İşleme AI modelleri için, bir nesnenin bir görüntüde varlığını tespit etmek yeterli değildir; aynı zamanda sınırlayıcı kutular çizmek için görüntünün neresinde olduğunu da belirlemesi gerekir.
IoU metriği, modelin tahmin ettiği kutunun gerçek, doğru kutuyla (ground truth) ne kadar yakından eşleştiğini ölçer. Puan 0 ile 1 arasındadır; 1 mükemmel eşleşme anlamına gelirken, 0 hiç örtüşme olmadığı anlamına gelir.
Örneğin, daha yüksek bir IoU (0,80 veya 0,85 gibi), tahmin edilen kutunun gerçek kutuya yakın bir eşleşme olduğunu, yani doğru yerelleştirme olduğunu gösterir. Daha düşük bir IoU (0,30 veya 0,25 gibi), modelin nesneyi doğru bir şekilde konumlandırmadığı anlamına gelir.
Bir tespitin başarılı olup olmadığını belirlemek için farklı eşikler kullanırız. Yaygın bir IoU eşiği 0,5'tir; bu, tahmin edilen bir kutunun gerçek kutuyla en az %50 oranında örtüşmesi gerektiği anlamına gelir ve bu, gerçek pozitif olarak sayılır. Bu eşiğin altındaki herhangi bir örtüşme yanlış pozitif olarak kabul edilir.
Şimdiye kadar, nesne algılama modellerinin performansını anlamak için bazı temel değerlendirme metriklerini inceledik. Bunun üzerine inşa ederek, en önemli metriklerden ikisi kesinlik (precision) ve geri çağırmadır (recall). Bunlar, modelin algılamalarının ne kadar doğru olduğuna dair net bir resim sunar. Şimdi bunlara bir göz atalım.
Hassasiyet değerleri, modelin tahminlerinin kaçının aslında doğru olduğunu gösterir. Şu soruyu yanıtlar: modelin tespit ettiğini iddia ettiği tüm nesnelerden kaçı gerçekten oradaydı?
Diğer yandan recall değerleri, modelin görüntüde bulunan tüm gerçek nesneleri ne kadar iyi bulduğunu ölçer. Şu soruyu yanıtlar: Mevcut tüm gerçek nesnelerden model kaç tanesini doğru bir şekilde tespit etti?
Hassasiyet ve hatırlama birlikte, bir modelin ne kadar iyi performans gösterdiğine dair daha net bir resim sunar. Örneğin, bir model bir görüntüde 10 araba tahmin ediyorsa ve bunların 9'u gerçekten araba ise, %90 hassasiyete sahiptir (olumlu bir tahmin).
Bu iki değerlendirme metriği genellikle bir ödünleşme içerir: Bir model, yalnızca tamamen emin olduğu tahminleri yaparak yüksek bir kesinlik değerine ulaşabilir, ancak bu, birçok nesneyi kaçırmasına neden olabilir ve bu da geri çağırma düzeyini düşürür. Bu arada, neredeyse her yerde bir sınırlayıcı kutu tahmin ederek çok yüksek bir geri çağırmaya da ulaşabilir, ancak bu kesinliği azaltır.
Hassasiyet ve geri çağırma, bir modelin bireysel tahminlerde nasıl performans gösterdiğini anlamamıza yardımcı olurken, Ortalama hassasiyet (AP) daha geniş bir görünüm sağlayabilir. Modelin daha fazla nesne tespit etmeye çalıştıkça hassasiyetinin nasıl değiştiğini gösterir ve performansını tek bir sayıda özetler.
Ortalama kesinlik puanını hesaplamak için, öncelikle her nesne türü için kesinlik-geri çağırma eğrisi (veya PR eğrisi) adı verilen birleşik bir grafik benzeri metrik oluşturabiliriz. Bu eğri, model daha fazla tahmin yaptıkça neler olduğunu gösterir.
Modelin yalnızca en kolay veya en belirgin nesneleri algılayarak başladığı bir senaryo düşünün. Bu aşamada, tahminlerin çoğu doğru olduğundan hassasiyet yüksektir, ancak birçok nesne hala kaçırıldığı için geri çağırma düşüktür. Model, daha zor veya daha nadir olanlar da dahil olmak üzere daha fazla nesneyi algılamaya çalıştıkça, genellikle daha fazla hata ortaya çıkarır. Bu, geri çağırma artarken hassasiyetin düşmesine neden olur.
Ortalama kesinlik, eğrinin altındaki alandır (PR eğrisinin AUC'si). Daha büyük bir alan, modelin daha fazla nesne tespit etse bile tahminlerini doğru tutmada daha iyi olduğu anlamına gelir. AP, her sınıf etiketi için ayrı ayrı hesaplanır.
Örneğin, arabaları, bisikletleri ve yayaları algılayabilen bir modelde, bu üç kategori için AP değerlerini ayrı ayrı hesaplayabiliriz. Bu, modelin hangi nesneleri algılamada iyi olduğunu ve nerede hala iyileştirmeye ihtiyaç duyabileceğini görmemize yardımcı olur.
Her bir nesne sınıfı için ortalama kesinliği hesapladıktan sonra, yine de modelin tüm sınıflardaki genel performansını yansıtan tek bir puana ihtiyacımız var. Bu, ortalama ortalama kesinlik formülü kullanılarak elde edilebilir. Her kategori için AP puanlarının ortalamasını alır.
Örneğin, YOLO11 gibi bir bilgisayarlı görü modelinin arabalar için 0,827, motosikletler için 0,679, kamyonlar için 0,355, otobüsler için 0,863 ve bisikletler için 0,982 AP elde ettiğini varsayalım. mAP formülünü kullanarak, bu sayıları toplayıp aşağıdaki gibi toplam sınıf sayısına bölebiliriz:
mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743
0,743'lük mAP puanı, modelin tüm nesne sınıflarında ne kadar iyi performans gösterdiğini değerlendirmek için basit bir çözüm sunar. 1'e yakın bir değer, modelin çoğu kategori için doğru olduğu anlamına gelirken, daha düşük bir değer bazı kategorilerde zorlandığını gösterir.
AP ve mAP'nin nasıl hesaplandığı ve bileşenlerinin neler olduğu hakkında daha iyi bir anlayışa sahip olduğumuza göre, bilgisayar görüşündeki önemine genel bir bakış:
Şimdi de mAP gibi temel metriklerin gerçek dünya bilgisayarla görme kullanım durumları oluştururken nasıl yardımcı olabileceğini inceleyelim.
Otonom sürüşlü arabalar söz konusu olduğunda, nesne algılama yayaları, trafik işaretlerini, bisikletlileri ve şerit işaretlerini tanımlamak için çok önemlidir. Örneğin, bir çocuk aniden caddeden koşarak geçerse, arabanın nesneyi (çocuk) algılaması, nerede olduğunu belirlemesi, hareketini izlemesi ve gerekli önlemi (frenlere basması) alması için saniyeleri vardır.
YOLO11 gibi modeller, bu tür yüksek riskli senaryolarda gerçek zamanlı nesne tespiti için tasarlanmıştır. Bu gibi durumlarda, mAP kritik bir güvenlik ölçütü haline gelir.
Yüksek bir mAP puanı, sistemin çocuğu hızlı bir şekilde tespit etmesini, tam olarak konumlandırmasını ve minimum gecikmeyle frenlemeyi tetiklemesini sağlar. Düşük bir mAP, kaçırılan tespitler veya çocuğun başka bir küçük nesneyle karıştırılması gibi tehlikeli yanlış sınıflandırmalar anlamına gelebilir.
Benzer şekilde, perakende sektöründe, nesne algılama modelleri, stok takibi ve ödeme süreçleri gibi görevleri otomatikleştirmek için kullanılabilir. Bir müşteri self-servis kasada bir ürün okuttuğunda, algılamadaki bir hata hayal kırıklığına neden olabilir.
Yüksek bir mAP puanı, modelin benzer ürünler arasında doğru bir şekilde ayrım yapmasını ve öğeler sıkıca paketlenmiş olsa bile hassas sınırlayıcı kutular çizmesini sağlar. Düşük bir mAP puanı karışıklıklara yol açabilir. Örneğin, model bir portakal suyu şişesini görsel olarak benzer bir elma suyu şişesiyle karıştırırsa, bu yanlış faturalandırmaya ve yanlış envanter raporlarına neden olabilir.
YOLO11 gibi modellerle entegre edilmiş perakende sistemleri, ürünleri gerçek zamanlı olarak algılayabilir, envantere göre kontrol edebilir ve arka uç sistemlerini anında güncelleyebilir. Hızlı tempolu perakende ortamlarında, mAP operasyonların doğru ve güvenilir tutulmasında çok önemli bir rol oynar.
Sağlık hizmetlerinde tanısal doğruluğu artırmak, tıbbi görüntülemede hassas tespit ile başlar. YOLO11 gibi modeller, radyologların tıbbi taramalardan tümörleri, kırıkları veya diğer anormallikleri tespit etmesine yardımcı olabilir. Burada, ortalama kesinlik (mean average precision), bir modelin klinik güvenilirliğini değerlendirmek için temel bir ölçüttür.
Yüksek bir mAP, modelin hem yüksek hatırlama (en gerçek sorunları tanımlama) hem de yüksek kesinlik (yanlış alarmlardan kaçınma) sağladığını gösterir ki bu da klinik karar vermede çok önemlidir. Ayrıca, sağlık hizmetlerinde IoU eşiği, son derece doğru tespiti sağlamak için genellikle çok yüksek (0,85 veya 0,90) olarak ayarlanır.
Ancak, düşük bir mAP skoru endişelere yol açabilir. Örneğin, bir modelin bir tümörü kaçırdığını varsayalım; bu, teşhisi geciktirebilir veya yanlış tedaviye yol açabilir.
İşte nesne algılama modellerini değerlendirmek için ortalama kesinlik (mean average precision) kullanmanın temel avantajları:
mAP metriğini kullanmanın çeşitli faydaları olmakla birlikte, dikkate alınması gereken bazı sınırlamalar da bulunmaktadır. İşte göz önünde bulundurulması gereken birkaç faktör:
Ortalama kesinliğin (mean average precision), sadece teknik bir puan değil, aynı zamanda bir modelin gerçek dünya performansının potansiyelinin bir yansıması olduğunu gördük. İster otonom bir araç sisteminde ister bir perakende ödeme noktasında olsun, yüksek bir mAP puanı, bir modelin performansının ve pratik hazırlığının güvenilir bir göstergesi olarak hizmet eder.
mAP önemli ve etkili bir metrik olsa da, iyi yuvarlanmış bir değerlendirme stratejisinin parçası olarak görülmelidir. Sağlık hizmetleri ve otonom sürüş gibi kritik uygulamalar için, yalnızca mAP'ye güvenmek yeterli değildir.
Çıkarım hızı (modelin ne kadar hızlı tahmin yaptığı), model boyutu (uç cihazlarda dağıtımı etkiler) ve nitel hata analizi (modelin yaptığı hataların türlerini anlama) gibi ek faktörler de sistemin güvenli, verimli ve gerçekten amacına uygun olduğundan emin olmak için dikkate alınmalıdır.
Büyüyen topluluğumuza ve bilgisayarlı görü hakkında daha fazla bilgi edinmek için GitHub depomuza katılın. Tarımda bilgisayarlı görü ve lojistikte AI uygulamaları hakkında bilgi edinmek için çözümler sayfalarımızı inceleyin. Kendi bilgisayarlı görü modelinizle bugün başlamak için lisanslama seçeneklerimize göz atın!