Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde nasıl bölümlere ayırabileceğini öğrenin.

Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde nasıl bölümlere ayırabileceğini öğrenin.
Yapay zeka benimsenmesi arttıkça, depolardaki robotlar, yoğun caddelerde güvenli bir şekilde hareket eden otonom araçlar, mahsulleri kontrol eden dronlar ve fabrikalarda ürünleri denetleyen yapay zeka sistemleri gibi yenilikler daha yaygın hale geliyor. Bu yenilikleri yönlendiren temel bir teknoloji, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir yapay zeka dalı olan bilgisayarlı görü'dür.
Örneğin, nesne tespiti, görüntüdeki nesneleri sınırlayıcı kutular kullanarak tanımlamaya ve konumlandırmaya yardımcı olan bir bilgisayarlı görü görevidir. Sınırlayıcı kutular faydalı bilgiler sunsa da, yalnızca bir nesnenin konumunun yaklaşık bir tahminini sağlar ve tam şeklini veya sınırlarını yakalayamaz. Bu, onları hassas tanımlama gerektiren uygulamalarda daha az etkili hale getirir.
Bu sorunu çözmek için araştırmacılar, nesnelerin tam hatlarını yakalayan, daha doğru tespit ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.
Mask R-CNN bu modellerden biridir. 2017'de Facebook AI Research (FAIR) tarafından tanıtılan model, R-CNN, Fast R-CNN ve Faster R-CNN gibi önceki modeller üzerine inşa edilmiştir. Bilgisayarlı görü tarihinde önemli bir kilometre taşı olan Mask R-CNN, Ultralytics YOLO11 gibi daha gelişmiş modellerin önünü açmıştır.
Bu makalede, Mask R-CNN'nin ne olduğunu, nasıl çalıştığını, uygulamalarını ve YOLO11'e yol açan hangi iyileştirmelerin yapıldığını inceleyeceğiz.
Mask Region-based Convolutional Neural Network'ün kısaltması olan Mask R-CNN, nesne tespiti ve örnek segmentasyonu gibi bilgisayarlı görü görevleri için tasarlanmış bir derin öğrenme modelidir.
Örnek segmentasyonu, bir görüntüdeki nesneleri yalnızca tanımlamakla kalmayıp aynı zamanda her birinin ana hatlarını doğru bir şekilde çizerek geleneksel nesne tespitinin ötesine geçer. Algılanan her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, çakışan nesneler arasında net bir şekilde ayrım yapmayı ve karmaşık şekilleri doğru bir şekilde işlemeyi mümkün kılar.
Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine kurulmuştur. Mask R-CNN, her bir nesneyi oluşturan tam pikselleri tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizine olanak tanır.
Mask R-CNN, nesneleri doğru bir şekilde tespit etmek ve bölümlere ayırmak için adım adım bir yaklaşım izler. Derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkararak başlar, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını belirler ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin hatları) oluşturarak bu alanları iyileştirir.
Şimdi, Mask R-CNN'in nasıl çalıştığına dair daha iyi bir fikir edinmek için her adımı inceleyeceğiz.
Mask R-CNN'in mimarisindeki ilk adım, görüntüyü temel parçalarına ayırmaktır, böylece model içindekileri anlayabilir. Tıpkı bir fotoğrafa baktığınızda şekiller, renkler ve kenarlar gibi ayrıntıları doğal olarak fark etmeniz gibi düşünün. Model, görüntüyü taramak ve temel ayrıntıları yakalamak için gözleri gibi davranan derin bir sinir ağı olan bir "omurga" (genellikle ResNet-50 veya ResNet-101) kullanarak benzer bir şey yapar.
Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.
Bu önemli özellikler çıkarıldıktan sonra, model daha sonra görüntüdeki potansiyel nesneleri bulmaya geçer ve daha fazla analiz için zemin hazırlar.
Görüntü temel özellikler için işlendikten sonra, Bölge Öneri Ağı devreye girer. Modelin bu kısmı görüntüye bakar ve nesneler içerme olasılığı yüksek olan alanlar önerir.
Bunu, çıpa adı verilen birden çok olası nesne konumu oluşturarak yapar. Ağ daha sonra bu çıpaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu şekilde, model görüntüdeki her bir noktayı kontrol etmek yerine, yalnızca ilginç olma olasılığı en yüksek olan alanlara odaklanır.
Temel alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları iyileştirmektir. Önceki modeller, her alandan özellikleri almak için ROI Havuzu (İlgi Alanı Havuzu) adı verilen bir yöntem kullanıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açarak, özellikle daha küçük veya örtüşen nesneler için daha az etkili hale getiriyordu.
Mask R-CNN, ROI Hizalama (İlgi Alanı Hizalama) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Hizalama, ROI Havuzu gibi koordinatları yuvarlamak yerine, piksel değerlerini daha hassas bir şekilde tahmin etmek için çift doğrusal enterpolasyon kullanır. Çift doğrusal enterpolasyon, daha yumuşak geçişler yaratan dört en yakın komşusunun değerlerini ortalayarak yeni bir piksel değeri hesaplayan bir yöntemdir. Bu, özelliklerin orijinal görüntüyle düzgün şekilde hizalanmasını sağlayarak daha doğru nesne tespiti ve segmentasyonu sağlar.
Örneğin, bir futbol maçında, birbirine yakın duran iki oyuncu, sınırlayıcı kutuları örtüştüğü için birbirleriyle karıştırılabilir. ROI Hizalama, şekillerini farklı tutarak onları ayırmaya yardımcı olur.
ROI Hizalama görüntüyü işledikten sonra, bir sonraki adım nesneleri sınıflandırmak ve konumlarını ince ayarlamaktır. Model, çıkarılan her bölgeye bakar ve hangi nesneyi içerdiğine karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.
Aynı zamanda, sınırlayıcı kutuları nesnelere daha iyi uyacak şekilde ayarlar. İlk kutular ideal olarak yerleştirilmemiş olabilir, bu nedenle bu, her kutunun algılanan nesneyi sıkıca çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.
Son olarak, Mask R-CNN fazladan bir adım atar: paralel olarak her nesne için ayrıntılı bir segmentasyon maskesi oluşturur.
Bu model çıktığında, yapay zeka topluluğundan büyük bir heyecanla karşılandı ve kısa sürede çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak tespit etme ve bölümlere ayırma yeteneği, farklı sektörlerde ezber bozan bir özellik haline geldi.
Örneğin, vahşi doğada nesli tükenmekte olan hayvanları izlemek zorlu bir iştir. Birçok tür yoğun ormanlarda hareket eder, bu da korumacılar için onları takip etmeyi zorlaştırır. Geleneksel yöntemler kamera tuzakları, dronlar ve uydu görüntüleri kullanır, ancak tüm bu verileri elle ayıklamak zaman alıcıdır. Yanlış tanımlamalar ve kaçırılan görüntüler koruma çabalarını yavaşlatabilir.
Mask R-CNN, kaplan çizgileri, zürafa benekleri veya bir filin kulaklarının şekli gibi benzersiz özellikleri tanıyarak, görüntü ve videolardaki hayvanları daha yüksek doğrulukla tespit edebilir ve bölümlere ayırabilir. Hayvanlar kısmen ağaçların arkasına saklanmış veya birbirine yakın duruyor olsalar bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayarak yaban hayatı izlemesini daha hızlı ve daha güvenilir hale getirebilir.
Nesne tespiti ve segmentasyonundaki tarihi önemine rağmen, Mask R-CNN'in bazı önemli dezavantajları da bulunmaktadır. İşte Mask R-CNN ile ilgili bazı zorluklar:
Mask R-CNN, segmentasyon görevleri için harikaydı, ancak birçok endüstri hız ve gerçek zamanlı performansa öncelik vererek bilgisayarlı görü uygulamalarını benimsemek istiyordu. Bu gereksinim, araştırmacıları nesneleri tek geçişte tespit eden ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.
Mask R-CNN'in çok adımlı sürecinden farklı olarak, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarlı görü modelleri gerçek zamanlı bilgisayarlı görü görevlerine odaklanır. YOLO modelleri, algılama ve segmentasyonu ayrı ayrı ele almak yerine, bir görüntüyü tek seferde analiz edebilir. Bu, otonom sürüş, sağlık hizmetleri, üretim ve robotik gibi hızlı karar vermenin çok önemli olduğu uygulamalar için idealdir.
Özellikle YOLO11, hem hızlı hem de doğru olmasıyla bu durumu bir adım öteye taşıyor. YOLOv8m'den %22 daha az parametre kullanır, ancak yine de COCO veri kümesinde daha yüksek bir ortalama kesinlik (mAP) elde eder, yani nesneleri daha hassas bir şekilde algılar. Geliştirilmiş işleme hızı, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçimdir.
Bilgisayarlı görünün tarihine baktığımızda, Mask R-CNN nesne tespiti ve segmentasyonunda büyük bir atılım olarak kabul edilir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok hassas sonuçlar verir.
Ancak, aynı süreç YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne tespiti sunan Ultralytics YOLO11 gibi tek aşamalı modeller kullanıyor. Mask R-CNN, bilgisayarlı görünün evrimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarlı görü çözümlerine yönelik artan talebi vurgulamaktadır.
Büyüyen topluluğumuza katılın! AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi bilgisayarlı görü projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zeka ve sağlık hizmetlerinde Vision AI'yı keşfedin!