YOLO11 ile küçük nesne algılama keşfi

Vision AI ile entegre edilmiş dronlar, yerden yüzlerce metre yükseklikte uçabilir ve yine de video görüntüsünde sadece birkaç piksel olarak görünen detect kiş detect edebilmesi beklenir. Aslında bu, robotik, gözetleme ve uzaktan algılama gibi uygulamalarda, sistemlerin bir görüntü içinde çok küçük nesneleri tanımlaması gereken yaygın bir zorluktur.

Ancak geleneksel nesne algılama modelleri bunu yapmakta zorlanabilir. Görüntü ve videolardaki küçük nesneler çok sınırlı görsel bilgi sunar. Basitçe söylemek gerekirse, bir model bunları incelediğinde, öğrenecek veya tanıyacak çok fazla ayrıntı yoktur.

Bu modeller, genellikle konvolüsyonel sinir ağı (CNN) tabanlı bir mimariye dayanmaktadır. Görüntüler, ağın katmanlarından geçirilerek, ham pikseller yerine ilgili desenleri vurgulayan özellik haritalarına veya basitleştirilmiş temsillere dönüştürülür.

Görüntü ağda daha derine doğru ilerledikçe, bu özellik haritaları küçülür. Bu, hesaplamayı hızlandırır, ancak aynı zamanda ince ayrıntıların kaybolabileceği anlamına da gelir.

Küçük nesneler için bu ayrıntılar çok önemlidir. Bu ayrıntılar kaybolduğunda, bilgisayar görme modeli nesneyi algılamakta zorluk çekebilir ve bu da daha az doğru veya tutarsız sınırlayıcı kutulara yol açabilir.

Gerçek zamanlı uçtan uca bilgisayar görme sistemleri bunu daha da zorlaştırır. Yüksek çözünürlüklü görüntüler ayrıntıları korumaya yardımcı olur, ancak çıkarımları yavaşlatır ve daha fazla GPU gerektirir. Düşük çözünürlükler daha hızlı çalışır, ancak küçük nesnelerin detect daha da zorlaşır.

Hız, doğruluk ve donanım sınırları arasında sürekli bir denge kurma çabası haline gelir. Son teknolojik gelişmeler sayesinde, Ultralytics YOLO11 ve yakında çıkacak olan Ultralytics gibi bilgisayar görme modelleri, bu dengelemeyi daha etkili bir şekilde yönetmek için tasarlanmıştır.

Şekil 1. YOLO11 kullanarak hava görüntülerinde detect nesneleri detect YOLO11 (Kaynak)

‍

Bu makalede, küçük nesnelerin algılanmasının neden zor olduğunu ve YOLO11 bunu nasıl YOLO11 inceleyeceğiz. Hadi başlayalım!

Küçük nesne algılama nedir ve neden önemlidir?

Küçük nesne algılama, yapay zekanın bir dalı olan bilgisayar görüşünde, görüntünün çok küçük bir bölümünü kaplayan nesneleri tanımlama ve konumlandırmaya odaklanan bir görevdir. Bu nesneler genellikle görüntüde dijital görüntünün en küçük birimleri olan sınırlı sayıda piksel ile temsil edilir. Bu da onları detect büyük ve net detect (genellikle daha fazla piksel içerir) detect zorlaştırır.

Örneğin, hava görüntülerindeki araçlar, fabrika zeminindeki aletler veya geniş açılı güvenlik kameraları tarafından yakalanan kişiler, görüntünün içinde küçük nesneler olarak görünebilir. Bunları tespit etmek önemlidir, çünkü genellikle kritik bilgiler içerirler ve güvenlik gibi birçok gerçek dünya uygulaması, doğru çalışabilmek için bu tespitlere bağlıdır.

Küçük nesneler gözden kaçtığında, sistem performansı ve karar verme süreci etkilenebilir. İnsansız hava aracı (İHA) izleme, yerdeki küçük hareketli nesnelerin gözden kaçmasının navigasyon veya izleme doğruluğunu etkileyebileceği iyi bir örnektir.

Küçük nesnelerin algılanmasıyla ilgili zorluklar

Önceki sistemler, yoğun veya çeşitli sahnelerde sorun yaşayan el yapımı özellikler ve geleneksel bilgisayar görme yöntemleri kullanıyordu. Günümüzde bile, derin öğrenme modelleri çok daha iyi performans gösterse de, küçük hedefler görüntünün sadece çok küçük bir bölümünü kapladığında bunları tespit etmek hala zor.

Şimdi, küçük nesneleri algılarken farklı gerçek dünya senaryolarında ortaya çıkan bazı yaygın zorluklara bakalım.

Boyut, piksel ve bilgi kaybı

Küçük nesneler çok az piksel içerir, bu da modelin özellik çıkarma gibi aşamalarda öğrenebileceği görsel ayrıntı miktarını sınırlar. Sonuç olarak, kenarlar, şekiller ve dokular gibi desenleri detect daha zor olur ve küçük nesnelerin arka plana karışması daha olası hale gelir.

Görüntüler bir sinir ağının evrişimli katmanlarından geçerken, piksellerdeki görsel bilgiler kademeli olarak özellik haritalarına sıkıştırılır. Bu, modelin verimli kalmasına yardımcı olur, ancak aynı zamanda ince ayrıntıların kaybolması anlamına da gelir.

Şekil 2. Özellik haritaları, bir görüntüdeki görsel kalıpları temsil eder (Kaynak)

‍

Küçük hedefler için, önemli ipuçları algılama ağı harekete geçmeden önce kaybolabilir. Bu durumda, konum belirleme daha az güvenilir hale gelir ve sınırlayıcı kutular kayabilir, üst üste gelebilir veya hedef nesneleri tamamen kaçırabilir.

Tıkanma, ölçek değişkenliği ve bağlam

Boyutla ilgili zorluklar da genellikle örtülme nedeniyle ortaya çıkar. Örtülme, nesneler, özellikle daha küçük olanlar, sahnedeki diğer nesneler tarafından kısmen gizlendiğinde meydana gelir.

Bu, hedefin görünür alanını azaltır ve nesne algılayıcısının kullanabileceği bilgileri sınırlar. Küçük bir örtme bile, özellikle düşük çözünürlüklü girdi ile birleştiğinde algılama ağlarını karıştırabilir. Bunun ilginç bir örneği, VisDrone gibi İHA veri kümelerinde görülebilir. Bu veri kümelerinde yayalar, bisikletler veya araçlar binalar, ağaçlar veya diğer hareketli nesneler tarafından kısmen engellenebilir.

Şekil 3. VisDrone veri setinden küçük nesneleri gösteren bir örnek (Kaynak)

‍

Benzer şekilde, ölçek farklılığı, aynı nesnenin mesafeye ve kamera konumuna bağlı olarak çok küçük veya nispeten büyük görünmesi durumunda başka bir zorluk katmanı oluşturur. Bu engellere rağmen, algılama algoritmaları, doğruluğu kaybetmeden farklı ölçeklerdeki bu küçük nesneleri tanımalıdır.

Bağlam da algılamada önemli bir rol oynar. Örneğin, büyük nesneler genellikle yararlı görsel ipuçları sağlayan net bir çevre ile birlikte görünür. Öte yandan, küçük hedefler genellikle bu bağlamsal bilgiden yoksundur, bu da desen tanıma işlemini zorlaştırır.

Küçük nesne algılamada gizli metrik sorunu

Kesişim Üzerinde Birleşim (IoU) gibi yaygın değerlendirme ölçütleri, tahmin edilen sınırlayıcı kutunun gerçek kutuyla ne kadar iyi örtüştüğünü ölçer. IoU , daha büyük nesneler için iyi IoU , küçük nesneler için davranışı oldukça farklıdır.

Küçük nesneler sadece birkaç piksel kaplar, bu nedenle tahmin edilen kutuda küçük bir kayma bile orantılı olarak büyük bir hata yaratabilir ve IoU keskin bir şekilde düşürebilir. Bu, küçük nesnelerin, nesne görüntüde görünür olsa bile, bir tahmini doğru olarak saymak için kullanılan standart IoU genellikle karşılayamadığı anlamına gelir.

Sonuç olarak, yerelleştirme hataları yanlış pozitif veya yanlış negatif olarak sınıflandırılma olasılığı daha yüksektir. Bu sınırlamalar, araştırmacıları nesne algılama sistemlerinin küçük,detect nasıl değerlendirdiğini ve ele aldığını yeniden düşünmeye sevk etmiştir.

Çok ölçekli özellikler: Küçük nesnelerin gerçek zamanlı algılanmasının anahtarı

Araştırmacılar küçük nesnelerin algılanmasını iyileştirmek için çalışırken, görsel bilgilerin çoklu ölçeklerde korunması ve temsil edilmesinin çok önemli olduğu ortaya çıktı. Bu görüş, son arXiv araştırmalarında ve IEEE Uluslararası Konferansları ve Avrupa Bilgisayar Görme Derneği (ECCV) gibi platformlarda sunulan makalelerde de yankı buldu.

Görüntüler sinir ağında daha derine ilerledikçe, küçük nesneler ayrıntılarını kaybedebilir veya tamamen kaybolabilir. Bu nedenle YOLO11 gibi modern bilgisayar görme modelleri, daha iyi özellik çıkarma işlemine büyük önem YOLO11 . Şimdi, özellik haritaları ve özellik piramidi ağlarının arkasındaki temel kavramları daha iyi anlamak için bunları inceleyelim.

Özellik haritaları ve ölçek gösterimi

Uzaktan algılama görüntüsü gibi bir girdi görüntüsü sinir ağına girdiğinde, kademeli olarak özellik haritalarına dönüştürülür. Bunlar, kenarlar, şekiller ve dokular gibi görsel desenleri vurgulayan görüntünün basitleştirilmiş temsilidir.

Ağ derinleştikçe, bu özellik haritalarının uzamsal boyutu küçülür. Bu küçülme, modelin verimli bir şekilde çalışmasına ve üst düzey bilgilere odaklanmasına yardımcı olur. Ancak, küçülen ve derin özellik haritaları uzamsal ayrıntıları da azaltır.

Şekil 4. Küçük nesnelerin algılanmasında özellik çıkarımı çok önemlidir. (Kaynak)

‍

Büyük nesneler doğru algılama için yeterli görsel bilgiyi korurken, küçük hedefler birkaç ağ katmanından sonra önemli ayrıntıları kaybedebilir. Bu durumda, model küçük bir nesnenin varlığını bile tanımakta zorlanabilir. Bu, derin nesne algılama modellerinde küçük nesnelerin gözden kaçmasının ana nedenlerinden biridir.

Özellik piramidi ağları ve çok ölçekli öğrenme

Genellikle FPN olarak adlandırılan özellik piramidi ağları, uzamsal ayrıntı kaybını gidermek için kullanılmaya başlanmıştır ve modellerin detect nesneleri daha etkili bir şekilde detect için birden fazla katmandan gelen bilgileri birleştiren bir destek modülü olarak çalışır. Bu süreç, özellik toplama ve özellik birleştirme olarak da bilinir.

Sığ katmanlar ince uzamsal ayrıntılar sağlarken, daha derin katmanlar anlamsal bağlam ekleyerek etkili çok ölçekli özellik öğrenimini mümkün kılar. Özellik haritalarını basitçe büyüten naif yukarı örnekleme yönteminden farklı olarak, FPN anlamlı bilgileri korur ve küçük nesnelerin algılanmasını iyileştirir.

Modern yaklaşımlar, küçük hedeflerin algılanmasını daha da geliştirmek için uyarlanabilir özellik birleştirme ve bağlam farkında tasarımlar kullanarak bu fikri temel alır. Başka bir deyişle, FPN modellerin hem büyük resmi hem de küçük ayrıntıları aynı anda görmesine yardımcı olur. Bu optimizasyon, nesneler küçük olduğunda çok önemlidir.

Nesne algılama modelleri, küçük nesneleri işlemek için nasıl gelişti?

İşte nesne algılama modellerinin zaman içinde nasıl geliştiği ve ilerlediği, çok küçük olanlar da dahil olmak üzere farklı boyutlardaki detect daha iyi detect için nasıl geliştiğine dair bir özet:

Erken algılama yöntemleri: Erken nesne algılama yaklaşımları, klasik görüntü işlemede kök salmış, manuel olarak tasarlanmış özelliklere ve kural tabanlı algoritmalara dayanıyordu. Bu özellikler sabit olduğundan, farklı görüntülerde performans düşüyordu.
Makine öğrenimi ve derin öğrenimin tanıtımı: Makine öğrenimi ve derin öğrenimin benimsenmesi, nesne algılama araştırmalarında büyük bir dönüşüm yarattı. Önceden tanımlanmış kurallara dayanmak yerine, sinir ağları görsel temsilleri doğrudan eğitim verilerinden öğrendi ve farklı nesne boyutları ve sahneler arasında uyarlanabilirliği artırdı.
Konvolüsyonel ağlar: Bu sinir ağları, görüntülerdeki kalıpları görmeyi öğrenir. Her katman, basit kenarlar ve renklerden başlayarak, ardından şekiller ve sonunda tam nesneler olmak üzere farklı ayrıntıları algılar, bu da onları modern bilgisayar görüşü için vazgeçilmez kılar.
İki aşamalı nesne algılayıcılar: Girshick ve Ren tarafından tanıtılan Faster R-CNN gibi iki aşamalı algılayıcılar, önce aday bölgeleri oluşturdu, ardından bunları sınıflandırdı. Bu yaklaşım, küçük nesneler için doğruluğu artırdı, ancak hesaplama maliyetini artırdı ve gerçek zamanlı performansı düşürdü.
Tek aşamalı nesne algılayıcılar: SSD (Single-Shot Detector) ve YOLOv3 dahil YOLO You Only Look Once) ailesi gibi tek aşamalı algılayıcılar, Ultralytics YOLOv5ve daha sonra Ultralytics YOLOv8, tek geçişte algılama gerçekleştirir. Bu tasarım, rekabetçi doğruluğu korurken çıkarım hızını önemli ölçüde artırır.
En son teknolojiye sahip modeller: Yeni nesil nesne algılama modelleri, gerçek zamanlı performans ve uç dağıtımına daha fazla odaklanmaktadır. Ultralytics YOLO11 yakında piyasaya çıkacak olan Ultralytics gibi Ultralytics YOLO son sürümleri, yüksek doğruluk ile düşük gecikmeli çıkarım arasında denge sağlamak üzere tasarlanmıştır. Bu sayede, sınırlı hesaplama gücüne sahip cihazlarda küçük hedefler dahil olmak üzere her boyuttaki nesneyi algılamaya son derece uygundur.

Küçük nesne algılama kullanım örnekleri YOLO11 kullanımı

Küçük nesne algılamanın nasıl çalıştığını daha iyi anladığımıza göre, YOLO11 birkaç gerçek dünya uygulamasını inceleyelim.

İHA ve hava görüntüleme

Yoğun bir şehir caddesinin üzerinde yüksekte uçan bir drone hayal edin. O yükseklikten, arabalar, bisikletler ve hatta insanlar ekranda sadece birkaç piksele küçülür.

İHA ve hava görüntüleme modülleri genellikle bu tür sahneleri yakalar. Bu sahnelerde ilgi çekici nesneler çok küçüktür ve dağınık arka planlarla çevrilidir, bu da bilgisayar görme modellerinin bunları detect zorlaştırır.

Bu tür senaryolarda YOLO11 ideal bir model seçimi YOLO11 . Örneğin, YOLO11 gibi bir modelle donatılmış bir drone, trafik akışını gerçek zamanlı olarak YOLO11 , sahnede hareket eden araçları, bisikletlileri ve yayaları algılayabilir, hatta her nesne görüntünün sadece küçük bir bölümünü kaplasa bile. Bu, trafik yönetimi, kamu güvenliği veya şehir planlama gibi uygulamalarda daha hızlı karar verme ve daha doğru içgörüler elde etmeyi sağlar.

Robotik ve otomasyon

Robotlar genellikle doğruluk ve zamanlamanın kritik olduğu ortamlarda kullanılır. Depolar, fabrikalar ve çiftlikler gibi ortamlarda, bir robotun montaj hattındaki bir parça, bir paketin üzerindeki etiket veya tarladaki küçük bir bitki tomurcuğu gibi çok küçük nesneleri tanıması ve hızlı bir şekilde tepki vermesi gerekebilir.

Bu boyuttaki nesneleri algılamak, özellikle kamera görüntüsünde sadece birkaç piksel olarak göründükleri veya diğer nesneler tarafından kısmen örtüldükleri durumlarda karmaşık olabilir. Bu küçük ayrıntıları gözden kaçırmak, otomasyonu yavaşlatabilir veya robotun bir görevi tamamlama yeteneğini etkileyebilir.

YOLO11 bu durumlarda fark YOLO11 . Geliştirilmiş özellik çıkarma ve hızlı çıkarım özelliği, robotların detect nesneleri gerçek zamanlı olarak detect ve hemen harekete geçmesini sağlar.

YOLO11 , robotların yalnızca genel sınır kutularını bulmak yerine nesne sınırlarını ve tutma noktalarını daha kesin olarak anlamalarına yardımcı olabilecek örnek segmentasyonunu YOLO11 destekler. Örneğin, YOLO11 ile entegre edilmiş bir robot kolu, konveyör bant üzerindeki küçük bileşenleri tespit YOLO11 , segment tam şeklini segment ve ulaşılamayacak kadar uzağa gitmeden önce onları alabilir, böylece sistemin verimli ve güvenilir kalmasına yardımcı olabilir.

YOLO11 küçük nesne algılamada YOLO11 kılan nedir?

Günümüzde çok sayıda bilgisayar görme modeli mevcut olduğundan, Ultralytics YOLO11 özelliğin ne olduğunu merak ediyor olabilirsiniz.

Ultralytics YOLO11 küçük nesnelerin algılanması gereken uygulamalar için mükemmel bir seçenekYOLO11 birkaç nedeni şunlardır:

Daha iyi özellik çıkarma: YOLO11 , özellik çıkarmayı geliştirmek için iyileştirilmiş bir backbone boyun mimarisi YOLO11 , böylece daha hassas nesne algılama sağlar.
Ekosistem ve kullanım kolaylığı: Ultralytics Python , YOLO11 gibi modelleri yüklemek, eğitmek, doğrulamak ve dağıtmak için yerleşik işlevler sağlayan bir kütüphanedir. Bu iş akışları yalnızca birkaç satır kod gerektirdiğinden, ekipler küçük nesne algılama için modelleri hızla deneyebilir ve ince ayar yapabilir.
Kenar dağıtımı için optimize edilmiştir: YOLO11 , NVIDIA , Raspberry Pi ve endüstriyel kamera sistemleri gibi kenar cihazlarında verimli bir şekilde YOLO11 . Basitçe söylemek gerekirse, cihaz üzerinde doğrudan gerçek zamanlı Görsel Yapay Zeka görevlerini gerçekleştirir.

YOLO11 ile küçük nesneleri tespit ederken kullanılacak pratik stratejiler

YOLO11 gibi bir model kullanmanın yanı sıra, açıklamalarınızı hazırlama şekliniz, genel veri kümesi ve model eğitim prosedürü de algılama performansında önemli bir fark yaratabilir.

İşte odaklanmanız gereken noktalara hızlı bir genel bakış:

Uygun veri artırma: Ölçeklendirme veya kırpma gibi hafif veri artırma işlemleri, modelin yeni görüntülere genelleştirilmesine yardımcı olabilir. Ancak, agresif büyük ölçekli artırma işlemleri küçük nesneleri bozabilir veya kaldırabilir, bu da modelin öğrenmesini zorlaştırabilir.
Başarısızlık durumlarına bakmak: Modelin nesneleri kaçırdığı veya yanlış tanımladığı durumları analiz etmek, bir temel oluşturmaya ve sorunların veri kümesinden mi, özellik çıkarma sırasında kaybolan bilgilerden mi yoksa eğitim ayarlarının değiştirilmesi gerektiğinden mi kaynaklandığını ortaya çıkarmaya yardımcı olur.
Veri kümesi bileşimi: Veri kümenizde, modelin anlamlı kalıpları öğrenebilmesi için yeterli sayıda küçük nesne örneği bulunmalı ve eğitim sırasında büyük nesnelerin küçük nesneleri gölgede bırakmaması için dengeli bir yapı korunmalıdır.

Önemli çıkarımlar

Küçük nesnelerin algılanması zordur, çünkü küçük hedefler bilgisayar görme modelinde görüntüler hareket ederken ayrıntıları kaybeder. YOLO11 , bu ayrıntıların korunmasını YOLO11 , gerçek zamanlı performanstan ödün vermeden küçük nesnelerin algılanmasını daha güvenilir hale getirir. Bu denge, YOLO11 gerçek dünya uygulamalarında doğru ve verimli algılama YOLO11 sağlar.

Büyüyen topluluğumuza katılın! AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Çözüm sayfalarımızı ziyaret ederek perakende sektöründe bilgisayarlı görü ve otomotiv sektöründe AI gibi yenilikleri keşfedin. Bilgisayarlı görü ile geliştirmeye bugün başlamak için lisanslama seçeneklerimize göz atın.

Ultralytics YOLO11 ile küçük nesne algılama keşfi

Küçük nesne algılama nedir ve neden önemlidir?