Ultralytics YOLO11 'in çapasız bir dedektör olmasının faydaları

5 Aralık 2024
Ultralytics YOLO11 'in çapasız nesne algılamayı nasıl desteklediğini ve bu model mimarisinin çeşitli uygulamalara getirdiği avantajları anlayın.

5 Aralık 2024
Ultralytics YOLO11 'in çapasız nesne algılamayı nasıl desteklediğini ve bu model mimarisinin çeşitli uygulamalara getirdiği avantajları anlayın.
Vizyon Yapay Zeka modellerinin geçmişine baktığımızda, bir görüntü veya video içindeki nesneleri tanımlamayı ve konumlandırmayı içeren temel bir bilgisayarlı görü görevi olan nesne tespiti kavramı 1960'lardan beri var. Ancak, günümüzdeki en son yeniliklerdeki öneminin temel nedeni, nesne tespiti tekniklerinin ve model mimarilerinin o zamandan beri gelişmesi ve hızla iyileşmesidir.
Önceki bir makalede, nesne algılamanın evrimini ve Ultralytics YOLO modellerine giden yolu tartışmıştık. Bugün, bu yolculuktaki daha spesifik bir kilometre taşını keşfetmeye odaklanacağız: çapa tabanlı dedektörlerden çapasız dedektörlere geçiş.
Anchor tabanlı dedektörler, bir görüntüdeki nesnelerin yerini tahmin etmek için "anchor" adı verilen önceden tanımlanmış kutulara dayanır. Buna karşılık, anchor'suz dedektörler bu önceden tanımlanmış kutuları atlar ve bunun yerine nesne konumlarını doğrudan tahmin eder.
Bu değişim basit ve mantıklı bir değişiklik gibi görünse de, aslında nesne algılama doğruluğu ve verimliliğinde büyük gelişmelere yol açmıştır. Bu makalede, çapasız dedektörlerin bilgisayarla görmeyi aşağıdaki gibi gelişmelerle nasıl yeniden şekillendirdiğini anlayacağız Ultralytics YOLO11.
Anchor tabanlı dedektörler, bir görüntüdeki nesneleri bulmaya yardımcı olmak için anchor olarak bilinen önceden tanımlanmış kutular kullanır. Bu anchor'ları, görüntü üzerine yerleştirilmiş farklı boyut ve şekillerdeki kutulardan oluşan bir ızgara olarak düşünün. Model daha sonra bu kutuları algıladığı nesnelere uyacak şekilde ayarlar. Örneğin, model bir araba tespit ederse, anchor kutusunu arabanın konumuna ve boyutuna daha doğru şekilde uyacak şekilde değiştirir.
Her bir çapa, görüntüdeki olası bir nesneyle ilişkilendirilir ve eğitim sırasında model, nesnenin konumu, boyutu ve en boy oranıyla daha iyi eşleşmesi için çapa kutularını nasıl değiştireceğini öğrenir. Bu, modelin farklı ölçek ve yönlerdeki nesneleridetect etmesini sağlar. Ancak, doğru bağlantı kutuları setini seçmek zaman alıcı olabilir ve ince ayar yapma süreci hatalara açık olabilir.

YOLOv4 gibi çapa tabanlı dedektörler birçok uygulamada iyi çalışmış olsa da bazı dezavantajları vardır. Örneğin, çapa kutuları farklı şekil veya boyutlardaki nesnelerle her zaman iyi hizalanmaz, bu da modelin küçük veya düzensiz şekilli nesneleri detect zorlaştırır. Çapa kutusu boyutlarını seçme ve ince ayar yapma süreci de zaman alıcı olabilir ve çok fazla manuel çaba gerektirir. Bunun yanı sıra, önceden tanımlanmış kutular bu daha karmaşık senaryolara iyi uyum sağlayamayabileceğinden, çapa tabanlı modeller genellikle örtülü veya üst üste binen nesneleri tespit etmekte zorlanır.
Anchor'suz dedektörler, 2018'de CornerNet ve CenterNet gibi modellerle dikkat çekmeye başladı ve önceden tanımlanmış anchor kutularına olan ihtiyacı ortadan kaldırarak nesne tespitine yeni bir yaklaşım getirdi. Nesnelerin nerede olduğunu tahmin etmek için farklı boyut ve şekillerdeki anchor kutularına dayanan geleneksel modellerin aksine, anchor'suz modeller nesnelerin konumlarını doğrudan tahmin eder. Algılama sürecini basitleştiren ve daha hızlı ve doğru hale getiren nesnenin merkez gibi önemli noktalarına veya özelliklerine odaklanırlar.
İşte ankraj içermeyen modellerin genel olarak nasıl çalıştığı:

Ankrajsız modeller ankraj kutularına dayanmadığı için daha basit bir tasarıma sahiptir. Bu da hesaplama açısından daha verimli oldukları anlamına gelir. Birden fazla bağlantı kutusunu işlemek zorunda olmadıkları için nesneleri daha hızlı detect edebilirler - bu da otonom sürüş ve video gözetimi gibi gerçek zamanlı uygulamalarda önemli bir avantajdır.
Ankrajsız modeller ayrıca küçük, düzensiz veya tıkalı nesneleri ele almada çok daha iyidir. Çapa kutularına uymaya çalışmak yerine kilit noktaları tespit etmeye odaklandıkları için çok daha esnektirler. Bu, çapa tabanlı modellerin başarısız olabileceği karmaşık veya karmaşık ortamlarda nesneleri doğru bir şekilde detect etmelerini sağlar.
Başlangıçta hız ve verimlilik için tasarlanan YOLO11 modelleri, kademeli olarak çapa tabanlı yöntemlerden çapasız algılamaya geçerek YOLO11 gibi modelleri daha hızlı, daha esnek ve çok çeşitli gerçek zamanlı uygulamalar için daha uygun hale getirmiştir.
İşte çapasız tasarımın farklı YOLO versiyonlarında nasıl geliştiğine hızlı bir bakış:

YOLO11 kullanarak çapasız algılamanın faydalarına harika bir örnek otonom araçlardır. Sürücüsüz araçlarda yayaları, diğer araçları ve engelleri hızlı ve doğru bir şekilde tespit etmek güvenlik için çok önemlidir. YOLO11'in çapasız yaklaşımı, önceden tanımlanmış çapa kutularına güvenmek yerine, bir yayanın merkezi veya başka bir aracın sınırları gibi nesnelerin kilit noktalarını doğrudan tahmin ederek algılama sürecini basitleştirir.

YOLO11 , hesaplama açısından pahalı ve yavaş olabilen bir çapa ızgarasını her nesneye ayarlamak veya uydurmak zorunda değildir. Bunun yerine, temel özelliklere odaklanarak daha hızlı ve daha verimli hale getirir. Örneğin, bir yaya aracın yoluna girdiğinde, YOLO11 , kişi kısmen gizlenmiş veya hareket ediyor olsa bile, kilit noktaları saptayarak konumunu hızla belirleyebilir. Bağlantı kutuları olmadan değişen şekil ve boyutlara uyum sağlama yeteneği, YOLO11 'in nesneleri daha güvenilir bir şekilde ve daha yüksek hızlarda detect sağlar; bu da otonom sürüş sistemlerinde gerçek zamanlı karar verme için hayati önem taşır.
YOLO11'in çapasız yeteneklerinin gerçekten öne çıktığı diğer uygulamalar arasında şunlar yer almaktadır:
YOLO11 gibi çapasız modeller birçok avantaj sunsa da bazı sınırlamaları da beraberinde getirmektedir. Pratikte göz önünde bulundurulması gereken en önemli hususlardan biri, çapasız modellerin bile oklüzyonlar veya yüksek oranda örtüşen nesnelerle mücadele edebilmesidir. Bunun arkasındaki mantık, bilgisayarla görmenin insan görüşünü taklit etmeyi amaçlamasıdır ve tıpkı bazen tıkalı nesneleri tanımlamakta zorlandığımız gibi, yapay zeka modelleri de benzer zorluklarla karşılaşabilir.
Bir başka ilginç faktör de model tahminlerinin işlenmesiyle ilgilidir. Çapasız modellerin mimarisi çapa tabanlı modellerden daha basit olsa da, bazı durumlarda ek iyileştirme gerekli hale gelmektedir. Örneğin, üst üste binen tahminleri temizlemek veya kalabalık sahnelerde doğruluğu artırmak için maksimum olmayan bastırmaNMS) gibi işlem sonrası teknikler gerekebilir.
Çapa tabanlı algılamadan çapasız algılamaya geçiş, nesne algılamada önemli bir ilerleme olmuştur. YOLO11 gibi çapasız modellerle süreç basitleştirilerek hem doğruluk hem de hızda iyileştirmeler sağlanmıştır.
YOLO11 sayesinde, hızlı ve hassas algılamanın çok önemli olduğu sürücüsüz otomobiller, video gözetimi ve tıbbi görüntüleme gibi gerçek zamanlı uygulamalarda çapasız nesne algılamanın nasıl üstün olduğunu gördük. Bu yaklaşım, YOLO11 'in değişen nesne boyutlarına ve karmaşık sahnelere daha kolay adapte olmasını sağlayarak çeşitli ortamlarda daha iyi performans sunar.
Bilgisayarlı görü gelişmeye devam ettikçe, nesne tespiti daha hızlı, daha esnek ve daha verimli hale gelecektir.
Tüm yapay zeka gelişmelerinden haberdar olmak için GitHub depomuzu keşfedin ve aktif topluluğumuza katılın. Görüntü İşleme Yapay Zekasının üretim ve tarım gibi sektörleri nasıl etkilediğini inceleyin.