Ortalama Ortalama HassasiyetmAP): Nesne Algılama

YZ adaptasyonu hızla büyüyor ve YZ, sürücüsüz otomobillerden raflardaki ürünleri tanımlayabilen perakende sistemlerine kadar çeşitli yeniliklere entegre ediliyor. Bu teknolojiler, makinelerin görsel verileri analiz etmesini sağlayan bir yapay zeka (YZ) dalı olan bilgisayarlı görüye dayanmaktadır.

Bilgisayarla görme sistemlerinin ve algoritmalarının doğruluğunu ölçmek için kullanılan önemli bir değerlendirme ölçütü ortalama ortalama hassasiyettirmAP). mAP metriği, bir Görme Yapay Zeka modelinin tahmininin gerçek dünya sonuçlarıyla ne kadar yakından eşleştiğini gösterir.

Yaygın bir bilgisayarla görme görevi, bir modelin bir görüntüdeki birden fazla nesneyi tanımladığı ve etraflarına sınırlayıcı kutular çizdiği nesne algılamadır. mAP , nesne algılama modellerinin performansını değerlendirmek için kullanılan standart bir metriktir ve aşağıdaki gibi derin öğrenme modellerini karşılaştırmak için yaygın olarak kullanılır Ultralytics YOLO11.

Bu makalede, ortalama hassasiyetin (mean average precision) nasıl hesaplandığını ve nesne algılama modellerini eğiten veya değerlendiren herkes için neden bu kadar önemli olduğunu göreceğiz. Haydi başlayalım!

Ortalama ortalama hassasiyetmAP) nedir?

Ortalama hassasiyet, bir derin öğrenme modelinin, bir görüntüdeki farklı nesneleri tespit etme ve tanımlama gibi görsel bilgi alma ile ilgili görevlerde ne kadar doğru olduğunu gösteren bir puandır. Örneğin, bir köpek, bir kedi ve bir araba içeren bir fotoğrafı analiz eden bir nesne algılama modelini düşünün. Güvenilir bir model, her nesneyi tanıyarak ve etrafına sınırlayıcı kutular ve etiketler çizerek, nerede olduğunu ve ne olduğunu vurgulayarak nesne tespiti gerçekleştirebilir.

mAP , modelin bu görevi birçok görüntüde ve farklı nesne türlerinde ne kadar iyi gerçekleştirdiğini gösterir. Modelin her bir nesneyi ve görüntü içindeki konumunu doğru bir şekilde tanımlayıp tanımlamadığını kontrol eder. Skor 0 ile 1 arasında değişir; burada bir, modelin her şeyi mükemmel bir şekilde bulduğu ve sıfır ise hiçbir nesneyi detect edemediği anlamına gelir.

Ortalama ortalama hassasiyettemAP) anahtar kavramlar

Makine öğreniminde ortalama kesinlik kavramlarının arkasındaki kavramları keşfetmeden önce, iki temel terimi daha iyi anlayalım: gerçek değer ve tahminler.

Ground truth (gerçek değer), nesnelerin ve görüntülerdeki konumlarının insanlar tarafından dikkatlice etiketlenmesiyle elde edilen doğru referans verilerini ifade eder ve bu işlem "etiketleme" olarak bilinir. Tahminler ise, yapay zeka modellerinin bir görüntüyü analiz ettikten sonra verdiği sonuçlardır. Yapay zeka modelinin tahminlerini ground truth ile karşılaştırarak, modelin doğru sonuçlara ne kadar yaklaştığını ölçebiliriz.

Şekil 1. Model tahmini ve temel doğruluk sınırlayıcı kutuları. Yazarın görseli.

‍

Karışıklık matrisi

Bir karmaşıklık matrisi, bir nesne algılama modelinin ne kadar hassas olduğunu anlamak için sıklıkla kullanılır. Modelin tahminlerinin gerçek doğru cevaplarla (temel gerçek) nasıl eşleştiğini gösteren bir tablodur. Bu tablodan, dört temel bileşenin veya sonucun bir dökümünü alabiliriz: gerçek pozitifler, yanlış pozitifler, yanlış negatifler ve gerçek negatifler.

İşte bu bileşenlerin karmaşıklık matrisinde (confusion matrix) neyi temsil ettiği:

Doğru pozitif (TP): Bir nesne ve konumu model tarafından doğru bir şekilde algılanır.
‍
Yanlış pozitif (FP): Model bir tespit yaptı, ancak bu hatalıydı.
‍
Yanlış negatif (FN): Görüntüde aslında mevcut olan ancak modelin detect edemediği bir nesne.
‍
Doğru negatif (TN): Doğru negatifler, modelin bir nesnenin yokluğunu doğru bir şekilde tanımlaması durumunda oluşur.

Gerçek negatifler nesne tespitinde yaygın olarak kullanılmaz, çünkü genellikle bir görüntüdeki birçok boş bölgeyi görmezden geliriz. Ancak, modelin görüntüye bir etiket atadığı görüntü sınıflandırma gibi diğer bilgisayarla görme görevlerinde çok önemlidir. Örneğin, görev bir görüntünün kedi içerip içermediğini detect etmekse ve model, görüntüde kedi olmadığında "kedi yok" ifadesini doğru bir şekilde tanımlarsa, bu gerçek bir negatiftir.

Şekil 2. Bir karmaşıklık matrisinde sınıflandırma sonuçları. Görüntü: yazar.

‍

Birlik Üzerinde KavşakIoU)

Nesne algılama modellerinin değerlendirilmesinde bir diğer önemli ölçüt de Birlik Üzerinden KesişimdirIoU). Bu tür Vision AI modelleri için, bir görüntüde bir nesnenin varlığını tespit etmek yeterli değildir; aynı zamanda sınırlayıcı kutular çizmek için nesnenin görüntüde nerede olduğunu da bulması gerekir.

IoU metriği, modelin öngördüğü kutunun gerçek, doğru kutuyla (zemin gerçeği) ne kadar yakından eşleştiğini ölçer. Skor 0 ile 1 arasındadır; burada 1 mükemmel eşleşme, 0 ise hiç örtüşme olmadığı anlamına gelir.

Örneğin, daha yüksek bir IoU (0,80 veya 0,85 gibi), tahmin edilen kutunun yer-gerçek kutusuyla yakın bir eşleşme olduğu anlamına gelir ve doğru konumlandırmayı gösterir. Daha düşük bir IoU (0,30 veya 0,25 gibi) modelin nesnenin yerini doğru bir şekilde tespit edemediği anlamına gelir.

Bir tespitin başarılı olup olmadığını belirlemek için farklı eşikler kullanırız. Yaygın bir IoU eşiği 0,5'tir, yani tahmin edilen bir kutunun gerçek bir pozitif olarak sayılması için zemin-gerçek kutusuyla en az %50 örtüşmesi gerekir. Bu eşiğin altındaki herhangi bir örtüşme yanlış pozitif olarak kabul edilir.

Şekil 3. Kesişim Üzerinden Birleşimi Anlamak. Yazarın görseli.

‍

Hassasiyet (Precision) ve Geri Çağırma (Recall)

Şimdiye kadar, nesne algılama modellerinin performansını anlamak için bazı temel değerlendirme metriklerini inceledik. Bunun üzerine inşa ederek, en önemli metriklerden ikisi kesinlik (precision) ve geri çağırmadır (recall). Bunlar, modelin algılamalarının ne kadar doğru olduğuna dair net bir resim sunar. Şimdi bunlara bir göz atalım.

Kesinlik değerleri bize modelin tahminlerinin kaç tanesinin gerçekten doğru olduğunu söyler. Şu soruya cevap verir: Modelin detect ettiğini iddia ettiği tüm nesnelerden kaç tanesi gerçekten oradaydı?

Öte yandan hatırlama değerleri, modelin görüntüde bulunan tüm gerçek nesneleri ne kadar iyi bulduğunu ölçer. Şu soruya cevap verir: Mevcut tüm gerçek nesnelerden kaç tanesini model doğru detect etti?

Hassasiyet ve hatırlama birlikte, bir modelin ne kadar iyi performans gösterdiğine dair daha net bir resim sunar. Örneğin, bir model bir görüntüde 10 araba tahmin ediyorsa ve bunların 9'u gerçekten araba ise, %90 hassasiyete sahiptir (olumlu bir tahmin).

Bu iki değerlendirme metriği genellikle bir ödünleşme içerir: Bir model, yalnızca tamamen emin olduğu tahminleri yaparak yüksek bir kesinlik değerine ulaşabilir, ancak bu, birçok nesneyi kaçırmasına neden olabilir ve bu da geri çağırma düzeyini düşürür. Bu arada, neredeyse her yerde bir sınırlayıcı kutu tahmin ederek çok yüksek bir geri çağırmaya da ulaşabilir, ancak bu kesinliği azaltır.

Şekil 4. Kesinlik ve hatırlama. Görselin kaynağı: yazar.

‍

Ortalama kesinlik

Hassasiyet ve geri çağırma, bir modelin bireysel tahminlerde nasıl performans gösterdiğini anlamamıza yardımcı olurken, Ortalama hassasiyetAP) daha geniş bir görünüm sağlayabilir. Daha fazla nesneyi detect etmeye çalıştıkça modelin hassasiyetinin nasıl değiştiğini gösterir ve performansını tek bir sayı olarak özetler.

Ortalama kesinlik puanını hesaplamak için, öncelikle her nesne türü için kesinlik-geri çağırma eğrisi (veya PR eğrisi) adı verilen birleşik bir grafik benzeri metrik oluşturabiliriz. Bu eğri, model daha fazla tahmin yaptıkça neler olduğunu gösterir.

Modelin yalnızca en kolay veya en belirgin nesneleri tespit ederek başladığı bir senaryo düşünün. Bu aşamada, tahminlerin çoğu doğru olduğu için hassasiyet yüksektir, ancak birçok nesne hala gözden kaçtığı için geri çağırma düşüktür. Model daha zor veya daha nadir olanlar da dahil olmak üzere daha fazla nesne detect etmeye çalıştıkça, genellikle daha fazla hata ortaya çıkar. Bu da geri çağırma artarken hassasiyetin düşmesine neden olur.

Ortalama hassasiyet, eğrinin altındaki alandır (PR eğrisinin AUC'si). Daha büyük bir alan, modelin daha fazla nesne tespit etse bile tahminlerini doğru tutmada daha iyi olduğu anlamına gelir. AP her sınıf etiketi için ayrı ayrı hesaplanır.

Örneğin, arabaları, bisikletleri ve yayaları detect edebilen bir modelde, AP değerlerini bu üç kategorinin her biri için ayrı ayrı hesaplayabiliriz. Bu, modelin hangi nesneleri tespit etmede iyi olduğunu ve nerede hala iyileştirmeye ihtiyaç duyabileceğini görmemize yardımcı olur.

Şekil 5. Beş farklı sınıf için bir PR eğrisi. (Kaynak)

‍

Ortalama hassasiyet

Her nesne sınıfı için ortalama hassasiyeti hesapladıktan sonra, modelin tüm sınıflardaki genel performansını yansıtan tek bir puana ihtiyacımız vardır. Bu, ortalama ortalama hassasiyet formülü kullanılarak elde edilebilir. Her kategori için AP puanlarının ortalamasını alır.

Örneğin, YOLO11 gibi bir bilgisayarla görme modelinin otomobiller için 0,827, motosikletler için 0,679, kamyonlar için 0,355, otobüsler için 0,863 ve bisikletler için 0,982 AP elde ettiğini varsayalım. mAP formülünü kullanarak bu sayıları toplayabilir ve aşağıdaki gibi toplam sınıf sayısına bölebiliriz:

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

0,743'lük mAP puanı, modelin tüm nesne sınıflarında ne kadar iyi performans gösterdiğini değerlendirmek için basit bir çözüm sağlar. 1'e yakın bir değer, modelin çoğu kategori için doğru olduğu anlamına gelirken, daha düşük bir değer bazılarında zorlandığını gösterir.

Bilgisayarla görmede AP ve mAP 'nin önemi

Artık AP ve mAP 'nin nasıl hesaplandığını ve bileşenlerinin neler olduğunu daha iyi anladığımıza göre, bilgisayarla görmedeki önemlerine genel bir bakış:

Belirli bir sınıf için düşük AP : Tek bir sınıf için düşük AP genellikle modelin o belirli nesne sınıfında zorlandığı anlamına gelir. Bunun nedeni yetersiz eğitim verileri veya görüntülerdeki oklüzyon gibi görsel zorluklar olabilir.

Yerelleştirme hataları: Daha düşük bir IoU eşiğinde ( mAP gibi mAP daha yüksek bir mAP değerinin daha yüksek bir IoU eşiğinde ( mAP gibi mAP önemli bir düşüşle birleşmesi, modelin nesneleri detect edebildiğini ancak onları tam olarak konumlandırmakta zorlandığını gösterir.

Aşırı uyum: Eğitim veri küm esinde daha yüksek bir mAP değeri ancak doğrulama veri kümesinde daha düşük bir mAP değeri, aşırı uyumun bir işaretidir ve modeli yeni görüntüler için güvenilmez hale getirir.

Ortalama hassasiyetin gerçek dünya uygulamaları

Daha sonra, mAP gibi temel metriklerin gerçek dünya bilgisayarla görme kullanım durumları oluştururken nasıl yardımcı olabileceğini inceleyelim.

Otonom araçlar: Neden daha yüksek bir mAP değeri daha güvenli yollar anlamına geliyor?

Sürücüsüz otomobiller söz konusu olduğunda, yayaları, yol işaretlerini, bisikletlileri ve şerit işaretlerini tanımlamak için nesne algılama çok önemlidir. Örneğin, bir çocuk aniden karşıdan karşıya koşarsa, aracın nesneyi (çocuğu) detect , nerede olduğunu bulmak, hareketini track ve gerekli eylemi gerçekleştirmek (frene basmak) için saniyeleri vardır.

YOLO11 gibi modeller, bu tür yüksek riskli senaryolarda gerçek zamanlı nesne tespiti için tasarlanmıştır. Bu durumlarda, mAP kritik bir güvenlik ölçütü haline gelir.

Yüksek bir mAP puanı, sistemin çocuğu hızlı bir şekilde algılamasını, tam olarak konumlandırmasını ve minimum gecikmeyle frenlemeyi tetiklemesini sağlar. Düşük bir mAP , çocuğun başka bir küçük nesneyle karıştırılması gibi gözden kaçan tespitler veya tehlikeli yanlış sınıflandırmalar anlamına gelebilir.

Şekil 6. YOLO11 'in yoldaki yayaları detect etmek için kullanılmasına bir örnek.(Kaynak)

‍

Doğru ürün tespiti için mAP kullanımı

Benzer şekilde, perakende sektöründe, nesne algılama modelleri, stok takibi ve ödeme süreçleri gibi görevleri otomatikleştirmek için kullanılabilir. Bir müşteri self-servis kasada bir ürün okuttuğunda, algılamadaki bir hata hayal kırıklığına neden olabilir.

Yüksek bir mAP puanı, modelin benzer ürünler arasında doğru bir ayrım yapmasını ve ürünler sıkıca paketlendiğinde bile hassas sınırlama kutuları çizmesini sağlar. Düşük bir mAP puanı karışıklıklara yol açabilir. Örneğin, model bir portakal suyu şişesini görsel olarak benzer bir elma suyu şişesiyle karıştırırsa, bu durum yanlış faturalandırmaya ve hatalı envanter raporlarına neden olabilir.

YOLO11 gibi modellerle entegre perakende sistemleri ürünleri gerçek zamanlı olarak detect , envanterle karşılaştırabilir ve arka uç sistemlerini anında güncelleyebilir. Hızlı tempolu perakende ortamlarında mAP , operasyonların doğru ve güvenilir olmasında çok önemli bir rol oynar.

Sağlık hizmetlerinde yüksek mAP ile tanısal doğruluğun artırılması

Sağlık hizmetlerinde teşhis doğruluğunu artırmak, tıbbi görüntülemede hassas tespitle başlar. YOLO11 gibi modeller radyologların bu tıbbi taramalardan tümörleri, kırıkları veya diğer anomalileri tespit etmesine yardımcı olabilir. Burada, ortalama ortalama hassasiyet, bir modelin klinik güvenilirliğini değerlendirmek için önemli bir ölçüttür.

Yüksek bir mAP , modelin hem yüksek geri çağırma (en gerçek sorunları belirleme) hem de yüksek hassasiyet (yanlış alarmlardan kaçınma) elde ettiğini gösterir ki bu klinik karar verme sürecinde çok önemlidir. Ayrıca, sağlık hizmetlerinde IoU eşiği, son derece doğru tespit sağlamak için genellikle çok yüksek (0,85 veya 0,90) olarak ayarlanır.

Ancak, düşük bir mAP skoru endişelere yol açabilir. Diyelim ki bir model bir tümörü gözden kaçırdı; bu durum teşhisi geciktirebilir veya yanlış tedaviye yol açabilir.

mAP kullanmanın artıları ve eksileri

İşte nesne algılama modellerini değerlendirmek için ortalama kesinlik (mean average precision) kullanmanın temel avantajları:

Standartlaştırılmış metrik: mAP , nesne algılama modellerini değerlendirmek için endüstri standardıdır. Bir mAP değeri, farklı modeller arasında adil ve tutarlı karşılaştırmalar yapılmasını sağlar.

Gerçek dünya performansını yansıtır: Yüksek bir mAP , modelin çeşitli nesne sınıflarını tespit etmede başarılı olduğunu ve karmaşık, gerçek dünya senaryolarında güçlü performansını koruduğunu gösterir.

Sınıf bazında tanılama: Bir mAP puanı, her sınıf için algılama performansını ayrı ayrı değerlendirir. Bu, düşük performans gösteren kategorileri (bisikletler veya sokak işaretleri gibi) belirlemeyi ve modele buna göre ince ayar yapmayı kolaylaştırır.

mAP metriğini kullanmanın çeşitli faydaları olsa da, dikkate alınması gereken bazı sınırlamalar vardır. İşte dikkate alınması gereken birkaç faktör:

Teknoloji dışı paydaşlar için zor: İşletme veya klinik ekipleri, daha sezgisel ve anlaşılması kolay metriklerin aksine mAP değerlerini soyut bulabilir.

Gerçek zamanlı kısıtlamaları yansıtmaz: mAP , zamana duyarlı uygulamalarda dağıtım için çok önemli olan çıkarım hızını veya gecikmeyi hesaba katmaz.

Önemli çıkarımlar

Ortalama ortalama hassasiyetin sadece teknik bir puan olmadığını, aynı zamanda bir modelin potansiyel gerçek dünya performansının bir yansıması olduğunu gördük. İster otonom bir araç sisteminde isterse bir perakende kasasında olsun, yüksek bir mAP puanı, bir modelin performansının ve uygulamaya hazırlığının güvenilir bir göstergesi olarak hizmet eder.

mAP önemli ve etkili bir metrik olmakla birlikte, çok yönlü bir değerlendirme stratejisinin parçası olarak görülmelidir. Sağlık hizmetleri ve otonom sürüş gibi kritik uygulamalar için yalnızca mAP'ye güvenmek yeterli değildir.

Çıkarım hızı (modelin ne kadar hızlı tahmin yaptığı), model boyutu (uç cihazlarda dağıtımı etkiler) ve nitel hata analizi (modelin yaptığı hataların türlerini anlama) gibi ek faktörler de sistemin güvenli, verimli ve gerçekten amacına uygun olduğundan emin olmak için dikkate alınmalıdır.

Büyüyen topluluğumuza ve bilgisayarlı görü hakkında daha fazla bilgi edinmek için GitHub depomuza katılın. Tarımda bilgisayarlı görü ve lojistikte AI uygulamaları hakkında bilgi edinmek için çözümler sayfalarımızı inceleyin. Kendi bilgisayarlı görü modelinizle bugün başlamak için lisanslama seçeneklerimize göz atın!

Nesne tespitinde ortalama ortalama hassasiyetmAP)

Ortalama ortalama hassasiyetmAP) nedir?