Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde segment ayırmak için nasıl kullanılabileceğini öğrenin.
Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde segment ayırmak için nasıl kullanılabileceğini öğrenin.
Yapay zeka benimsenmesi arttıkça, depolardaki robotlar, yoğun caddelerde güvenli bir şekilde hareket eden otonom araçlar, mahsulleri kontrol eden dronlar ve fabrikalarda ürünleri denetleyen yapay zeka sistemleri gibi yenilikler daha yaygın hale geliyor. Bu yenilikleri yönlendiren temel bir teknoloji, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir yapay zeka dalı olan bilgisayarlı görü'dür.
Örneğin, nesne tespiti, görüntüdeki nesneleri sınırlayıcı kutular kullanarak tanımlamaya ve konumlandırmaya yardımcı olan bir bilgisayarlı görü görevidir. Sınırlayıcı kutular faydalı bilgiler sunsa da, yalnızca bir nesnenin konumunun yaklaşık bir tahminini sağlar ve tam şeklini veya sınırlarını yakalayamaz. Bu, onları hassas tanımlama gerektiren uygulamalarda daha az etkili hale getirir.
Bu sorunu çözmek için araştırmacılar, nesnelerin tam hatlarını yakalayan, daha doğru tespit ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.
Mask R-CNN bu modellerden biridir. 2017 yılında Facebook AI Research (FAIR) tarafından tanıtılan bu model, R-CNN, Fast R-CNN ve Faster R-CNN gibi daha önceki modellerin üzerine inşa edilmiştir. Bilgisayarla görme tarihinde önemli bir kilometre taşı olan Mask R-CNN, aşağıdakiler gibi daha gelişmiş modellerin önünü açmıştır Ultralytics YOLO11.
Bu makalede, Mask R-CNN'nin ne olduğunu, nasıl çalıştığını, uygulamalarını ve YOLO11'e kadar hangi iyileştirmelerin yapıldığını inceleyeceğiz.
Mask Region-based Convolutional Neural Network'ün kısaltması olan Mask R-CNN, nesne tespiti ve örnek segmentasyonu gibi bilgisayarlı görü görevleri için tasarlanmış bir derin öğrenme modelidir.
Örnek segmentasyonu, bir görüntüdeki nesneleri yalnızca tanımlamakla kalmayıp aynı zamanda her birinin ana hatlarını doğru bir şekilde çizerek geleneksel nesne tespitinin ötesine geçer. Algılanan her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, çakışan nesneler arasında net bir şekilde ayrım yapmayı ve karmaşık şekilleri doğru bir şekilde işlemeyi mümkün kılar.
Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine kurulmuştur. Mask R-CNN, her bir nesneyi oluşturan tam pikselleri tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizine olanak tanır.

Mask R-CNN, nesneleri doğru bir şekilde detect etmek ve segment ayırmak için adım adım bir yaklaşım benimser. Derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkararak başlar, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını belirler ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin ana hatları) oluşturarak bu alanları hassaslaştırır.
Şimdi, Mask R-CNN'in nasıl çalıştığına dair daha iyi bir fikir edinmek için her adımı inceleyeceğiz.

Mask R-CNN'nin mimarisindeki ilk adım, modelin içinde ne olduğunu anlayabilmesi için görüntüyü temel parçalarına ayırmaktır. Bunu bir fotoğrafa baktığınızda doğal olarak şekiller, renkler ve kenarlar gibi ayrıntıları fark etmeniz gibi düşünün. Model,backbone" (genellikle ResNet-50 veya ResNet-101) adı verilen derin bir sinir ağı kullanarak benzer bir şey yapar; bu ağ, görüntüyü taramak ve önemli ayrıntıları yakalamak için gözleri gibi davranır.
Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.
Bu önemli özellikler çıkarıldıktan sonra, model daha sonra görüntüdeki potansiyel nesneleri bulmaya geçer ve daha fazla analiz için zemin hazırlar.
Görüntü temel özellikler için işlendikten sonra, Bölge Öneri Ağı devreye girer. Modelin bu kısmı görüntüye bakar ve nesneler içerme olasılığı yüksek olan alanlar önerir.
Bunu, çıpa adı verilen birden çok olası nesne konumu oluşturarak yapar. Ağ daha sonra bu çıpaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu şekilde, model görüntüdeki her bir noktayı kontrol etmek yerine, yalnızca ilginç olma olasılığı en yüksek olan alanlara odaklanır.

Temel alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları iyileştirmektir. Önceki modeller, her alandan özellikleri almak için ROI Havuzu (İlgi Alanı Havuzu) adı verilen bir yöntem kullanıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açarak, özellikle daha küçük veya örtüşen nesneler için daha az etkili hale getiriyordu.
Mask R-CNN, ROI Hizalama (İlgi Alanı Hizalama) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Hizalama, ROI Havuzu gibi koordinatları yuvarlamak yerine, piksel değerlerini daha hassas bir şekilde tahmin etmek için çift doğrusal enterpolasyon kullanır. Çift doğrusal enterpolasyon, daha yumuşak geçişler yaratan dört en yakın komşusunun değerlerini ortalayarak yeni bir piksel değeri hesaplayan bir yöntemdir. Bu, özelliklerin orijinal görüntüyle düzgün şekilde hizalanmasını sağlayarak daha doğru nesne tespiti ve segmentasyonu sağlar.
Örneğin, bir futbol maçında, birbirine yakın duran iki oyuncu, sınırlayıcı kutuları örtüştüğü için birbirleriyle karıştırılabilir. ROI Hizalama, şekillerini farklı tutarak onları ayırmaya yardımcı olur.

ROI Align görüntüyü işledikten sonra, bir sonraki adım nesneleri classify ve konumlarına ince ayar yapmaktır. Model, çıkarılan her bölgeye bakar ve hangi nesneyi içerdiğine karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.
Aynı zamanda, sınırlayıcı kutuları nesnelere daha iyi uyacak şekilde ayarlar. İlk kutular ideal olarak yerleştirilmemiş olabilir, bu nedenle bu, her kutunun algılanan nesneyi sıkıca çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.
Son olarak, Mask R-CNN fazladan bir adım atar: paralel olarak her nesne için ayrıntılı bir segmentasyon maskesi oluşturur.
Bu model ortaya çıktığında, yapay zeka topluluğu tarafından büyük bir heyecanla karşılandı ve kısa süre içinde çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak detect etme ve segment ayırma yeteneği, onu farklı sektörlerde oyunun kurallarını değiştiren bir unsur haline getirdi.
Örneğin, nesli tükenmekte olan hayvanları vahşi doğada takip etmek zorlu bir iştir. Birçok tür sık ormanlarda hareket eder ve bu da korumacıların onları track etmesini zorlaştırır. Geleneksel yöntemlerde kamera tuzakları, insansız hava araçları ve uydu görüntüleri kullanılır, ancak tüm bu verileri elle sıralamak zaman alıcıdır. Yanlış tanımlamalar ve gözden kaçan gözlemler koruma çabalarını yavaşlatabilir.
Mask R-CNN, kaplan çizgileri, zürafa benekleri veya bir filin kulaklarının şekli gibi benzersiz özellikleri tanıyarak, görüntü ve videolardaki hayvanları daha yüksek doğrulukla detect edebilir ve segment ayırabilir. Hayvanlar ağaçlar tarafından kısmen gizlendiğinde veya birbirine yakın durduğunda bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayabilir, böylece yaban hayatı izlemeyi daha hızlı ve daha güvenilir hale getirir.

Nesne tespiti ve segmentasyonundaki tarihi önemine rağmen, Mask R-CNN'in bazı önemli dezavantajları da bulunmaktadır. İşte Mask R-CNN ile ilgili bazı zorluklar:
Maske R-CNN segmentasyon görevleri için harikaydı, ancak birçok endüstri hız ve gerçek zamanlı performansa öncelik verirken bilgisayarla görmeyi benimsemek istiyordu. Bu gereksinim, araştırmacıları nesneleri tek bir geçişte detect ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.
Mask R-CNN'nin çok adımlı sürecinin aksine, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarla görme modelleri gerçek zamanlı bilgisayarla görme görevlerine odaklanır. Algılama ve segmentasyonu ayrı ayrı ele almak yerine, YOLO modelleri bir görüntüyü tek seferde analiz edebilir. Bu da hızlı karar vermenin çok önemli olduğu otonom sürüş, sağlık hizmetleri, üretim ve robotik gibi uygulamalar için idealdir.
Özellikle YOLO11 hem hızlı hem de doğru olmasıyla bunu bir adım öteye taşımaktadır. YOLOv8m 'ye göre %22 daha az parametre kullanmasına rağmen COCO veri setinde daha yüksek ortalama hassasiyetmAP) elde ediyor, yani nesneleri daha hassas bir şekilde tespit ediyor. Geliştirilmiş işlem hızı, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçim olmasını sağlar.

Bilgisayarlı görünün tarihine baktığımızda, Mask R-CNN nesne tespiti ve segmentasyonunda büyük bir atılım olarak kabul edilir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok hassas sonuçlar verir.
Ancak bu aynı süreç, YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne algılama sunan Ultralytics YOLO11 gibi tek aşamalı modeller kullanmaktadır. Mask R-CNN, bilgisayarla görmenin gelişimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarla görme çözümlerine yönelik artan talebi vurgulamaktadır.
Büyüyen topluluğumuza katılın! AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi bilgisayarlı görü projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zeka ve sağlık hizmetlerinde Vision AI'yı keşfedin!

.webp)
