Popüler mimariler, performans ödünleşimleri ve pratik dağıtım faktörlerine göz atarak 2025'in en iyi nesne algılama modellerini keşfedin.

Popüler mimariler, performans ödünleşimleri ve pratik dağıtım faktörlerine göz atarak 2025'in en iyi nesne algılama modellerini keşfedin.

Bu yılın başlarında, yapay zeka ve makine öğreniminin öncülerinden Andrew Ng, ajansal nesne algılama kavramını tanıttı. Bu yaklaşım, çok büyük miktarda eğitim verisi gerektirmeden, bir akıl yürütme ajanı kullanarak metin komutuna dayalı olarak detect .
Büyük etiketli veri kümelerine ihtiyaç duymadan görüntü ve videolardaki nesneleri tanımlayabilmek, daha akıllı ve esnek bilgisayar görme sistemlerine doğru atılmış bir adımdır. Ancak, ajansel Görme AI hala erken aşamalarında bulunmaktadır.
Görüntüdeki insanları veya sokak işaretlerini algılama gibi genel görevleri yerine getirebilse de, daha hassas bilgisayar görme uygulamaları hala geleneksel nesne algılama modellerine dayanmaktadır. Bu modeller, tam olarak neyi arayacaklarını ve nesnelerin nerede bulunduğunu öğrenmek için büyük, özenle etiketlenmiş veri kümeleri üzerinde eğitilir.

Geleneksel nesne algılama, nesnenin ne olduğunu tanımlayan tanıma ve nesnenin görüntüdeki tam konumunu belirleyen yerelleştirme işlevlerini yerine getirdiği için çok önemlidir. Bu iki işlevin birleşimi, otonom araçlardan endüstriyel otomasyona ve sağlık teşhisine kadar karmaşık gerçek dünya görevlerini makinelerin güvenilir bir şekilde yerine getirmesini sağlar.
Teknolojik gelişmeler sayesinde, nesne algılama modelleri sürekli olarak gelişmekte, daha hızlı, daha doğru ve gerçek dünya ortamlarına daha uygun hale gelmektedir. Bu makalede, günümüzde mevcut olan en iyi nesne algılama modellerinden bazılarını inceleyeceğiz. Hadi başlayalım!
Görüntü sınıflandırma gibi bilgisayar görme görevleri, bir görüntünün araba, insan veya başka bir nesne içerip içermediğini belirlemek için kullanılabilir. Ancak, nesnenin görüntü içinde nerede bulunduğunu belirleyemezler.
Bu noktada nesne algılama çok faydalı olabilir. Nesne algılama modelleri, hangi nesnelerin mevcut olduğunu belirleyebilir ve bunların tam konumlarını tespit edebilir. Yerelleştirme olarak bilinen bu süreç, makinelerin sahneleri daha doğru bir şekilde anlamasını ve uygun şekilde tepki vermesini sağlar. Bu, otonom bir aracı durdurmak, bir robot kolunu yönlendirmek veya tıbbi görüntülemede bir alanı vurgulamak gibi durumlarda geçerlidir.
Derin öğrenmenin yükselişi, nesne algılamayı dönüştürdü. El ile kodlanmış kurallara güvenmek yerine, modern modeller kalıpları doğrudan açıklamalardan ve görsel verilerden öğrenir. Bu veri kümeleri, modellere nesnelerin neye benzediğini, genellikle nerede göründüklerini ve küçük nesneler, dağınık sahneler veya değişken aydınlatma koşulları gibi zorlukların nasıl ele alınacağını öğretir.
Aslında, son teknoloji nesne algılama sistemleri detect nesneyi aynı anda doğru bir şekilde detect . Bu, nesne algılamayı otonom sürüş, robotik, sağlık hizmetleri ve endüstriyel otomasyon gibi uygulamalarda kritik bir teknoloji haline getirir.
Nesne algılama modeline girdi, bir kamera, video karesi veya hatta tıbbi taramadan elde edilebilen bir görüntüdür. Girdi görüntüsü, görsel verilerdeki kalıpları tanımak üzere eğitilmiş bir sinir ağı, genellikle bir evrişimli sinir ağı (CNN) aracılığıyla işlenir.
Ağ içinde, görüntü aşamalı olarak analiz edilir. Algıladığı özelliklere dayanarak, model hangi nesnelerin mevcut olduğunu ve bunların nerede göründüğünü tahmin eder.
Bu tahminler, algılanan her nesnenin etrafına çizilen dikdörtgenler olan sınırlayıcı kutular kullanılarak gösterilir. Model, her sınırlayıcı kutu için bir sınıf etiketi (örneğin, araba, kişi veya köpek) ve tahmin hakkında ne kadar emin olduğunu gösteren bir güven puanı atar (bu, olasılık olarak da düşünülebilir).

Genel süreç, büyük ölçüde özellik çıkarmaya dayanır. Model, kenarlar, şekiller, dokular ve diğer ayırt edici özellikler gibi yararlı görsel kalıpları tanımayı öğrenir. Bu kalıplar, ağın görüntüyü çok sayıda ayrıntı düzeyinde anlamasına yardımcı olan özellik haritalarında kodlanır.
Model mimarisine bağlı olarak, nesne algılayıcılar nesneleri bulmak için hız, doğruluk ve karmaşıklık arasında denge kuran farklı stratejiler kullanır.
Birçok nesne algılama modeli, özellikle Faster R-CNN gibi iki aşamalı algılayıcılar, görüntünün ilgi alanları (ROI) olarak adlandırılan belirli bölümlerine odaklanır. Model, her pikseli eşit şekilde analiz etmek yerine, bu alanlara odaklanarak nesneleri içermesi daha olası bölgelere öncelik verir.
Öte yandan, erken YOLO gibi tek aşamalı modeller, iki aşamalı modellerin yaptığı gibi belirli ROI'leri seçmez. Bunun yerine, görüntüyü bir ızgaraya böler ve önceden tanımlanmış kutular (ankraj kutuları) ile özellik haritalarını kullanarak tek geçişte görüntünün tamamındaki nesneleri tahmin eder.
Günümüzde, en son teknolojiye sahip nesne algılama modelleri, bağlantı noktası içermeyen yaklaşımları araştırmaktadır. Önceden tanımlanmış bağlantı kutularına dayanan geleneksel tek aşamalı modellerin aksine, bağlantı noktası içermeyen modeller nesnelerin konumlarını ve boyutlarını doğrudan özellik haritalarından tahmin eder. Bu, mimariyi basitleştirebilir, hesaplama yükünü azaltabilir ve özellikle farklı şekil ve boyutlardaki nesneleri algılamada performansı artırabilir.
Günümüzde, her biri belirli hedefler göz önünde bulundurularak tasarlanmış birçok nesne algılama modeli bulunmaktadır. Bazıları gerçek zamanlı performans için optimize edilmişken, diğerleri en yüksek doğruluğu elde etmeye odaklanmaktadır. Bir bilgisayar görme çözümü için doğru modeli seçmek, genellikle özel kullanım durumunuza ve performans gereksinimlerinize bağlıdır.
Şimdi, 2025 yılının en iyi nesne algılama modellerinden bazılarını inceleyelim.
Günümüzde en yaygın kullanılan nesne algılama modeli ailelerinden biri Ultralytics YOLO ailesidir. You Only Look Once (Sadece Bir Kez Bak) anlamına gelen YOLO, hızlı, güvenilir ve kullanımı kolay olmasının yanı sıra güçlü algılama performansı sunduğu için tüm sektörlerde popülerdir.
Ultralytics YOLO şunları içerir Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11ve yakında piyasaya çıkacak olan Ultralytics , farklı performans ve kullanım gereksinimleri için çeşitli seçenekler sunar. Hafif tasarımları ve hız optimizasyonları sayesinde Ultralytics YOLO , gerçek zamanlı algılama için idealdir ve sınırlı işlem gücü ve belleğe sahip uç cihazlarda kullanılabilir.

Temel nesne algılamanın ötesinde, bu modeller oldukça çok yönlüdür. Ayrıca, nesneleri piksel düzeyinde özetleyen örnek segmentasyonu ve insanlar veya nesneler üzerindeki önemli noktaları belirleyen poz tahmini gibi görevleri de desteklerler. Bu esneklik, Ultralytics YOLO tarım ve lojistikten perakende ve üretime kadar geniş bir uygulama yelpazesi için ideal bir seçenek haline getirir.
Ultralytics YOLO popüler olmasının bir diğer önemli nedeni,YOLO eğitimi, ince ayarı ve dağıtımı için basit ve kullanıcı dostu bir arayüz sağlayan Ultralytics Python . Geliştiriciler, önceden eğitilmiş ağırlıklarla başlayabilir, modelleri kendi veri kümeleri için özelleştirebilir ve sadece birkaç satır kodla dağıtabilirler.
RT‑DETR (Gerçek Zamanlı Algılama Dönüştürücü) ve daha yeni olan RT‑DETRv2, gerçek zamanlı kullanım için geliştirilmiş nesne algılama modelleridir. Birçok geleneksel modelden farklı olarak, bu modeller bir görüntüyü alıp, maksimum bastırma (NMS) kullanmadan doğrudan nihai algılamaları verebilirler.
NMS bir model aynı nesneyi birden fazla kez tahmin ettiğinde fazladan üst üste binen kutuları kaldıran bir NMS . NMS atlamak, algılama sürecini daha basit ve hızlı NMS .
Bu modeller CNN'leri dönüştürücülerle birleştirir. CNN kenarlar ve şekiller gibi görsel ayrıntıları bulurken, dönüştürücü tüm görüntüyü bir kerede inceleyebilen ve farklı parçaların birbirleriyle nasıl ilişkili olduğunu anlayabilen bir tür sinir ağıdır. Bu kapsamlı anlayış, modelin birbirine yakın veya üst üste binen detect sağlar.
RT‑DETRv2, hem küçük hem de büyük nesneleri bulmaya yardımcı olan çok ölçekli algılama ve karmaşık sahnelerin daha iyi işlenmesi gibi özelliklerle orijinal modeli geliştirir. Bu değişiklikler, modelin hızını korurken doğruluğunu da artırır.
RF‑DETR, transformatör mimarilerinin doğruluğunu gerçek dünya uygulamaları için gereken hızla birleştirmek üzere tasarlanmış, gerçek zamanlı, transformatör tabanlı bir modeldir. RT‑DETR ve RT‑DETRv2 gibi, tüm görüntüyü analiz etmek için bir transformatör ve kenarlar, şekiller ve dokular gibi ince görsel özellikleri çıkarmak için bir CNN kullanır.
Model, giriş görüntüsünden doğrudan nesneleri tahmin eder, bağlantı kutularını ve maksimum olmayan bastırmayı atlar, bu da algılama sürecini basitleştirir ve çıkarımın hızlı olmasını sağlar. RF‑DETR ayrıca örnek segmentasyonunu da destekler, böylece sınırlayıcı kutuları tahmin etmenin yanı sıra nesneleri piksel düzeyinde de özetleyebilir.
2019 yılının sonlarında piyasaya sürülen EfficientDet, verimli ölçeklendirme ve yüksek performans için tasarlanmış bir nesne algılama modelidir. EfficientDet'i diğerlerinden ayıran özellik, tek bir faktörü ayarlamak yerine giriş çözünürlüğünü, ağ derinliğini ve ağ genişliğini aynı anda ölçeklendiren bir yöntem olan bileşik ölçeklendirmedir. Bu yaklaşım, modelin yüksek performanslı görevler için ölçeklendirilmesi veya hafif dağıtımlar için küçültülmesi durumunda istikrarlı bir doğruluk seviyesini korumasına yardımcı olur.
EfficientDet'in bir diğer önemli bileşeni, modelin görüntüleri birden fazla ölçekte analiz etmesini sağlayan verimli özellik piramidi ağıdır (FPN). Bu çok ölçekli analiz, farklı boyutlardaki nesneleri algılamak için çok önemlidir ve EfficientDet'in aynı görüntüdeki hem küçük hem de büyük nesneleri güvenilir bir şekilde tanımlamasını sağlar.
2022 yılında piyasaya sürülen PP-YOLOE+, YOLO bir nesne algılama modelidir, yani görüntüyü tek geçişte algılar ve nesneleri sınıflandırır. Bu yaklaşım, yüksek doğruluğu korurken, hızlı ve gerçek zamanlı uygulamalar için uygun olmasını sağlar.
PP-YOLOE+'daki en önemli iyileştirmelerden biri, göreve uyumlu öğrenmedir. Bu özellik, modelin güven puanlarının nesnelerin konumlarının ne kadar doğru olduğunu yansıtmasına yardımcı olur. Bu özellik, özellikle küçük veya üst üste binen nesneleri algılamada yararlıdır.

Model ayrıca, nesne konumlarını ve sınıf etiketlerini tahmin etme görevlerini ayıran, ayrıştırılmış bir başlık mimarisi kullanır. Bu, nesneleri doğru bir şekilde sınıflandırırken sınırlayıcı kutuları daha hassas bir şekilde çizmesini sağlar.
GroundingDINO, görme ve dili birleştiren transformatör tabanlı bir nesne algılama modelidir. Sabit bir kategori kümesine dayanmak yerine, kullanıcıların doğal dil metin komutlarını kullanarak detect olanak tanır.
Görüntüdeki görsel özellikleri metin açıklamalarıyla eşleştirerek, model, bu etiketler eğitim verilerinde bulunmasa bile nesneleri bulabilir. Bu, modele "kask takan bir kişi" veya "binanın yanında duran kırmızı bir araba" gibi açıklamalarla komut verebileceğiniz ve modelin eşleşen nesnelerin etrafında doğru sınırlayıcı kutular oluşturabileceği anlamına gelir.
Ayrıca, GroundingDINO, sıfır atış algılamayı destekleyerek, her yeni kullanım durumu için modeli yeniden eğitme veya ince ayar yapma ihtiyacını azaltır ve çok çeşitli uygulamalarda yüksek esneklik sağlar. Dil anlayışı ve görsel tanıma özelliklerinin bir araya gelmesi, etkileşimli ve uyarlanabilir yapay zeka sistemleri için yeni olanaklar sunar.
Çeşitli nesne algılama modellerini karşılaştırırken, hangisinin en iyi performansı gösterdiğini nasıl anlayacağınızı merak ediyor olabilirsiniz. Bu iyi bir soru, çünkü model mimarisi ve verilerinizin kalitesinin ötesinde, performansı etkileyebilecek birçok faktör vardır.
Araştırmacılar, modelleri tutarlı bir şekilde değerlendirmek, sonuçları karşılaştırmak ve hız ile doğruluk arasındaki dengeleri anlamak için genellikle ortak benchmarklar ve standart performans ölçütlerine güvenirler. Standart benchmarklar özellikle önemlidir, çünkü birçok nesne algılama modeli COCO gibi aynı veri setleri üzerinde değerlendirilir.
Nesne algılama modellerini değerlendirmek için kullanılan bazı yaygın ölçütlere daha yakından bakalım:
Gerçek dünya uygulamalarında nesne algılama modellerini kullanmanın bazı temel avantajları şunlardır:
Bu avantajlara rağmen, nesne algılama modellerinin performansını etkileyebilecek bazı pratik sınırlamalar vardır. Dikkate alınması gereken bazı önemli faktörler şunlardır:
Bilgisayar görme projeniz için en iyi nesne algılama modeli, kullanım durumunuza, veri yapılandırmanıza, performans gereksinimlerinize ve donanım kısıtlamalarınıza bağlıdır. Bazı modeller hız için optimize edilirken, diğerleri doğruluğa odaklanır ve çoğu gerçek dünya uygulaması her ikisinin dengesi gerektirir. GitHub'daki açık kaynaklı çerçeveler ve aktif topluluklar sayesinde, bu modellerin değerlendirilmesi, uyarlanması ve pratik kullanım için dağıtılması giderek kolaylaşmaktadır.
Daha fazla bilgi edinmek için GitHub depomuzu inceleyin. Topluluğumuza katılın ve çözüm sayfalarımızı ziyaret ederek sağlık hizmetlerinde yapay zeka ve otomotiv endüstrisinde bilgisayar görüşü gibi uygulamalar hakkında bilgi edinin. Vision AI'yı bugün kullanmaya başlamak için lisans seçeneklerimizi keşfedin.


