YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Mask R-CNN nedir ve nasıl çalışır?

Abirami Vina

4 dakika okuma

21 Mart 2025

Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde nasıl bölümlere ayırabileceğini öğrenin.

Yapay zeka benimsenmesi arttıkça, depolardaki robotlar, yoğun caddelerde güvenli bir şekilde hareket eden otonom araçlar, mahsulleri kontrol eden dronlar ve fabrikalarda ürünleri denetleyen yapay zeka sistemleri gibi yenilikler daha yaygın hale geliyor. Bu yenilikleri yönlendiren temel bir teknoloji, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir yapay zeka dalı olan bilgisayarlı görü'dür.

Örneğin, nesne tespiti, görüntüdeki nesneleri sınırlayıcı kutular kullanarak tanımlamaya ve konumlandırmaya yardımcı olan bir bilgisayarlı görü görevidir. Sınırlayıcı kutular faydalı bilgiler sunsa da, yalnızca bir nesnenin konumunun yaklaşık bir tahminini sağlar ve tam şeklini veya sınırlarını yakalayamaz. Bu, onları hassas tanımlama gerektiren uygulamalarda daha az etkili hale getirir.

Bu sorunu çözmek için araştırmacılar, nesnelerin tam hatlarını yakalayan, daha doğru tespit ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.

Mask R-CNN bu modellerden biridir. 2017'de Facebook AI Research (FAIR) tarafından tanıtılan model, R-CNN, Fast R-CNN ve Faster R-CNN gibi önceki modeller üzerine inşa edilmiştir. Bilgisayarlı görü tarihinde önemli bir kilometre taşı olan Mask R-CNN, Ultralytics YOLO11 gibi daha gelişmiş modellerin önünü açmıştır.

Bu makalede, Mask R-CNN'nin ne olduğunu, nasıl çalıştığını, uygulamalarını ve YOLO11'e yol açan hangi iyileştirmelerin yapıldığını inceleyeceğiz.

Mask R-CNN'ye genel bir bakış

Mask Region-based Convolutional Neural Network'ün kısaltması olan Mask R-CNN, nesne tespiti ve örnek segmentasyonu gibi bilgisayarlı görü görevleri için tasarlanmış bir derin öğrenme modelidir. 

Örnek segmentasyonu, bir görüntüdeki nesneleri yalnızca tanımlamakla kalmayıp aynı zamanda her birinin ana hatlarını doğru bir şekilde çizerek geleneksel nesne tespitinin ötesine geçer. Algılanan her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, çakışan nesneler arasında net bir şekilde ayrım yapmayı ve karmaşık şekilleri doğru bir şekilde işlemeyi mümkün kılar.

Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine kurulmuştur. Mask R-CNN, her bir nesneyi oluşturan tam pikselleri tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizine olanak tanır.

Şekil 1. Nesne tespiti ve örnek segmentasyonunun karşılaştırılması.

Mask R-CNN'nin mimarisine ve nasıl çalıştığına bir bakış

Mask R-CNN, nesneleri doğru bir şekilde tespit etmek ve bölümlere ayırmak için adım adım bir yaklaşım izler. Derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkararak başlar, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını belirler ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin hatları) oluşturarak bu alanları iyileştirir.

Şimdi, Mask R-CNN'in nasıl çalıştığına dair daha iyi bir fikir edinmek için her adımı inceleyeceğiz.

Şekil 2. Maske R-CNN mimarisine genel bir bakış (Kaynak: researchgate.net).

Özellik çıkarımı ile başlanıyor

Mask R-CNN'in mimarisindeki ilk adım, görüntüyü temel parçalarına ayırmaktır, böylece model içindekileri anlayabilir. Tıpkı bir fotoğrafa baktığınızda şekiller, renkler ve kenarlar gibi ayrıntıları doğal olarak fark etmeniz gibi düşünün. Model, görüntüyü taramak ve temel ayrıntıları yakalamak için gözleri gibi davranan derin bir sinir ağı olan bir "omurga" (genellikle ResNet-50 veya ResNet-101) kullanarak benzer bir şey yapar.

Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.

Bu önemli özellikler çıkarıldıktan sonra, model daha sonra görüntüdeki potansiyel nesneleri bulmaya geçer ve daha fazla analiz için zemin hazırlar.

Görüntüde nesnelerle potansiyel alanlar önerme

Görüntü temel özellikler için işlendikten sonra, Bölge Öneri Ağı devreye girer. Modelin bu kısmı görüntüye bakar ve nesneler içerme olasılığı yüksek olan alanlar önerir.

Bunu, çıpa adı verilen birden çok olası nesne konumu oluşturarak yapar. Ağ daha sonra bu çıpaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu şekilde, model görüntüdeki her bir noktayı kontrol etmek yerine, yalnızca ilginç olma olasılığı en yüksek olan alanlara odaklanır.

Şekil 3. Bir Bölge Öneri Ağı örneği.

Çıkarılan özellikleri geliştirme 

Temel alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları iyileştirmektir. Önceki modeller, her alandan özellikleri almak için ROI Havuzu (İlgi Alanı Havuzu) adı verilen bir yöntem kullanıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açarak, özellikle daha küçük veya örtüşen nesneler için daha az etkili hale getiriyordu.

Mask R-CNN, ROI Hizalama (İlgi Alanı Hizalama) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Hizalama, ROI Havuzu gibi koordinatları yuvarlamak yerine, piksel değerlerini daha hassas bir şekilde tahmin etmek için çift doğrusal enterpolasyon kullanır. Çift doğrusal enterpolasyon, daha yumuşak geçişler yaratan dört en yakın komşusunun değerlerini ortalayarak yeni bir piksel değeri hesaplayan bir yöntemdir. Bu, özelliklerin orijinal görüntüyle düzgün şekilde hizalanmasını sağlayarak daha doğru nesne tespiti ve segmentasyonu sağlar.

Örneğin, bir futbol maçında, birbirine yakın duran iki oyuncu, sınırlayıcı kutuları örtüştüğü için birbirleriyle karıştırılabilir. ROI Hizalama, şekillerini farklı tutarak onları ayırmaya yardımcı olur. 

Şekil 4. Mask R-CNN, ROI Hizalama kullanır.

Nesneleri sınıflandırma ve maskelerini tahmin etme

ROI Hizalama görüntüyü işledikten sonra, bir sonraki adım nesneleri sınıflandırmak ve konumlarını ince ayarlamaktır. Model, çıkarılan her bölgeye bakar ve hangi nesneyi içerdiğine karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.

Aynı zamanda, sınırlayıcı kutuları nesnelere daha iyi uyacak şekilde ayarlar. İlk kutular ideal olarak yerleştirilmemiş olabilir, bu nedenle bu, her kutunun algılanan nesneyi sıkıca çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.

Son olarak, Mask R-CNN fazladan bir adım atar: paralel olarak her nesne için ayrıntılı bir segmentasyon maskesi oluşturur.

Mask R-CNN ve gerçek zamanlı uygulamaları

Bu model çıktığında, yapay zeka topluluğundan büyük bir heyecanla karşılandı ve kısa sürede çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak tespit etme ve bölümlere ayırma yeteneği, farklı sektörlerde ezber bozan bir özellik haline geldi.

Örneğin, vahşi doğada nesli tükenmekte olan hayvanları izlemek zorlu bir iştir. Birçok tür yoğun ormanlarda hareket eder, bu da korumacılar için onları takip etmeyi zorlaştırır. Geleneksel yöntemler kamera tuzakları, dronlar ve uydu görüntüleri kullanır, ancak tüm bu verileri elle ayıklamak zaman alıcıdır. Yanlış tanımlamalar ve kaçırılan görüntüler koruma çabalarını yavaşlatabilir.

Mask R-CNN, kaplan çizgileri, zürafa benekleri veya bir filin kulaklarının şekli gibi benzersiz özellikleri tanıyarak, görüntü ve videolardaki hayvanları daha yüksek doğrulukla tespit edebilir ve bölümlere ayırabilir. Hayvanlar kısmen ağaçların arkasına saklanmış veya birbirine yakın duruyor olsalar bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayarak yaban hayatı izlemesini daha hızlı ve daha güvenilir hale getirebilir.

Şekil 5. Mask R-CNN kullanarak hayvanları tespit etme ve bölümlere ayırma.

Mask R-CNN'in Sınırlamaları

Nesne tespiti ve segmentasyonundaki tarihi önemine rağmen, Mask R-CNN'in bazı önemli dezavantajları da bulunmaktadır. İşte Mask R-CNN ile ilgili bazı zorluklar:

  • Yüksek hesaplama ihtiyacı: Güçlü GPU'lara ihtiyaç duyar, bu da büyük miktarda veriyi işlerken çalıştırmayı maliyetli ve yavaş hale getirebilir.

  • Daha yavaş işleme hızı: Çok aşamalı süreci, YOLO gibi daha hızlı gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur, bu da zamana duyarlı görevler için ideal olmayabilir.

  • Yüksek kaliteli veriye bağımlılık: Model, en iyi performansı net, iyi etiketlenmiş görüntülerle gösterir. Bulanık veya kötü aydınlatılmış görüntüler doğruluğunu önemli ölçüde azaltabilir.
  • Karmaşık uygulama: Çok aşamalı mimari, özellikle büyük veri kümeleri veya sınırlı kaynaklarla uğraşırken kurulumu ve optimize etmeyi zorlaştırabilir.

Mask R-CNN'den Ultralytics YOLO11'e

Mask R-CNN, segmentasyon görevleri için harikaydı, ancak birçok endüstri hız ve gerçek zamanlı performansa öncelik vererek bilgisayarlı görü uygulamalarını benimsemek istiyordu. Bu gereksinim, araştırmacıları nesneleri tek geçişte tespit eden ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.

Mask R-CNN'in çok adımlı sürecinden farklı olarak, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarlı görü modelleri gerçek zamanlı bilgisayarlı görü görevlerine odaklanır. YOLO modelleri, algılama ve segmentasyonu ayrı ayrı ele almak yerine, bir görüntüyü tek seferde analiz edebilir. Bu, otonom sürüş, sağlık hizmetleri, üretim ve robotik gibi hızlı karar vermenin çok önemli olduğu uygulamalar için idealdir.

Özellikle YOLO11, hem hızlı hem de doğru olmasıyla bu durumu bir adım öteye taşıyor. YOLOv8m'den %22 daha az parametre kullanır, ancak yine de COCO veri kümesinde daha yüksek bir ortalama kesinlik (mAP) elde eder, yani nesneleri daha hassas bir şekilde algılar. Geliştirilmiş işleme hızı, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçimdir.

Şekil 6. YOLO11'in diğer modellere kıyasla performansı.

Önemli çıkarımlar

Bilgisayarlı görünün tarihine baktığımızda, Mask R-CNN nesne tespiti ve segmentasyonunda büyük bir atılım olarak kabul edilir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok hassas sonuçlar verir. 

Ancak, aynı süreç YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne tespiti sunan Ultralytics YOLO11 gibi tek aşamalı modeller kullanıyor. Mask R-CNN, bilgisayarlı görünün evrimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarlı görü çözümlerine yönelik artan talebi vurgulamaktadır.

Büyüyen topluluğumuza katılın! AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi bilgisayarlı görü projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zeka ve sağlık hizmetlerinde Vision AI'yı keşfedin! 

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı