Yapay Zeka Görüşü

Mask R-CNN nedir ve nasıl çalışır?

Mask R-CNN'in farklı sektörlerdeki çeşitli uygulamalar için görüntülerdeki ve videolardaki nesneleri tam olarak nasıl segmente etmek için kullanılabileceğini öğren.

ABAbirami Vina

4 min readMarch 21, 2025

Depolardaki robotlar, yoğun sokaklarda güvenle ilerleyen otonom araçlar, mahsulleri kontrol eden dronlar ve fabrikalarda ürünleri denetleyen yapay zeka sistemleri gibi yenilikler, yapay zeka benimsendikçe daha yaygın hale geliyor. Bu yenilikleri yönlendiren temel teknoloji, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir yapay zeka dalı olan bilgisayarlı görü'dür.

Örneğin, nesne tespiti, sınırlayıcı kutular (bounding boxes) kullanarak görüntülerdeki nesneleri tanımlamaya ve konumlandırmaya yardımcı olan bir bilgisayarlı görü görevidir. Sınırlayıcı kutular yararlı bilgiler sunsa da, bunlar yalnızca bir nesnenin konumu hakkında kaba bir tahmin sağlar ve tam şeklini veya sınırlarını yakalayamaz. Bu da onları, kesin tanımlama gerektiren uygulamalarda daha az etkili kılar.

Bu sorunu çözmek için araştırmacılar, nesnelerin tam konturlarını yakalayan ve daha doğru tespit ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.

Mask R-CNN bu modellerden biridir. 2017 yılında Facebook AI Research (FAIR) tarafından tanıtılan model, R-CNN, Fast R-CNN ve Faster R-CNN gibi önceki modellerin üzerine inşa edilmiştir. Bilgisayarlı görü tarihinde önemli bir dönüm noktası olan Mask R-CNN, Ultralytics YOLO11 gibi daha gelişmiş modellerin önünü açmıştır.

Bu makalede Mask R-CNN'in ne olduğunu, nasıl çalıştığını, uygulama alanlarını ve ondan sonra gelen, YOLO11'e giden iyileştirmeleri keşfedeceğiz.

Link to this sectionMask R-CNN'e genel bir bakış#

Maske Bölge Tabanlı Evrişimli Sinir Ağı (Mask Region-based Convolutional Neural Network) anlamına gelen Mask R-CNN, nesne tespiti ve örnek segmentasyonu (instance segmentation) gibi bilgisayarlı görü görevleri için tasarlanmış bir derin öğrenme modelidir.

Örnek segmentasyonu, geleneksel nesne tespitinin ötesine geçerek yalnızca bir görüntüdeki nesneleri tanımlamakla kalmaz, aynı zamanda her birini doğru bir şekilde ana hatlarıyla belirtir. Tespit edilen her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, üst üste binen nesneleri net bir şekilde ayırt etmeyi ve karmaşık şekilleri doğru bir şekilde işlemeyi mümkün kılar.

Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine inşa edilmiştir. Mask R-CNN, her bir nesneyi oluşturan tam pikselleri tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizi sağlar.

Nesne algılama ve örnek bölümlemenin karşılaştırması

Şekil 1. Nesne tespiti ve örnek segmentasyonunun karşılaştırılması.

Link to this sectionMask R-CNN mimarisine ve çalışma prensibine bir bakış#

Mask R-CNN, nesneleri doğru bir şekilde tespit etmek ve bölütlemek için adım adım bir yaklaşım izler. İlk olarak derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkarır, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını tanımlar ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin ana hatları) oluşturarak bu alanları iyileştirir.

Bir sonraki adımda, Mask R-CNN'in nasıl çalıştığına dair daha iyi bir fikir edinmek için her bir adımı inceleyeceğiz.

Mask R-CNN mimarisine genel bakış

Şekil 2. Mask R-CNN mimarisine genel bir bakış (Kaynak: researchgate.net).

Link to this sectionÖzellik çıkarma ile başlangıç#

Mask R-CNN mimarisindeki ilk adım, modelin içindekileri anlayabilmesi için görüntüyü temel parçalarına ayırmaktır. Bunu, bir fotoğrafa baktığınızda şekiller, renkler ve kenarlar gibi ayrıntıları doğal olarak fark etmeniz gibi düşünebilirsin. Model, görüntüyü taramak ve temel ayrıntıları yakalamak için gözleri gibi işlev gören "backbone" (genellikle ResNet-50 veya ResNet-101) adlı bir derin sinir ağı kullanarak benzer bir işlem yapar.

Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı (Feature Pyramid Network) kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.

Bu önemli özellikler çıkarıldıktan sonra, model daha sonra görüntüdeki potansiyel nesneleri konumlandırmaya geçer ve daha fazla analiz için zemin hazırlar.

Link to this sectionGörüntüdeki nesnelerin bulunduğu potansiyel alanların önerilmesi#

Görüntü temel özellikler için işlendikten sonra, Bölge Öneri Ağı (Region Proposal Network) devreye girer. Modelin bu parçası görüntüye bakar ve nesne içermesi muhtemel alanları önerir.

Bunu, çapalar (anchors) adı verilen birden fazla olası nesne konumu üreterek yapar. Ağ daha sonra bu çapaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu sayede model, görüntüdeki her noktayı kontrol etmek yerine yalnızca ilgi çekici olma olasılığı en yüksek olan alanlara odaklanır.

Bölge Öneri Ağı diyagramı

Şekil 3. Bir Bölge Öneri Ağı örneği.

Link to this sectionÇıkarılan özelliklerin geliştirilmesi#

Temel alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları iyileştirmektir. Önceki modeller, her alandan özellikleri toplamak için ROI Pooling (İlgi Bölgesi Havuzlama) adlı bir yöntem kullanıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açıyor ve bu da onu, özellikle daha küçük veya üst üste binen nesneler için daha az etkili kılıyordu.

Mask R-CNN, ROI Align (İlgi Bölgesi Hizalama) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Pooling gibi koordinatları yuvarlamak yerine, ROI Align piksel değerlerini daha kesin tahmin etmek için bilineer enterpolasyon kullanır. Bilineer enterpolasyon, yeni bir piksel değerini en yakın dört komşusunun değerlerini ortalayarak hesaplayan ve daha yumuşak geçişler oluşturan bir yöntemdir. Bu, özelliklerin orijinal görüntüyle doğru bir şekilde hizalanmasını sağlar ve daha doğru nesne tespiti ve segmentasyonu ile sonuçlanır.

Örneğin, bir futbol maçında, yan yana duran iki oyuncu sınırlayıcı kutuları üst üste bindiği için birbiriyle karıştırılabilir. ROI Align, şekillerini belirgin tutarak onları ayırmaya yardımcı olur.

Mask R-CNN'in ROI Align'ı nasıl kullandığını gösteren diyagram

Şekil 4. Mask R-CNN, ROI Align kullanır.

Link to this sectionNesnelerin sınıflandırılması ve maskelerinin tahmin edilmesi#

ROI Align görüntüyü işledikten sonra, bir sonraki adım nesneleri sınıflandırmak ve konumlarına ince ayar yapmaktır. Model, çıkarılan her bölgeye bakar ve içinde hangi nesnenin olduğuna karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.

Aynı zamanda, sınırlayıcı kutuları nesnelere daha iyi uyacak şekilde ayarlar. İlk kutular ideal şekilde yerleştirilmemiş olabilir, bu nedenle bu işlem, her kutunun tespit edilen nesneyi tam olarak çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.

Son olarak, Mask R-CNN fazladan bir adım atar: her nesne için paralel olarak ayrıntılı bir segmentasyon maskesi oluşturur.

Link to this sectionMask R-CNN ve gerçek zamanlı uygulamaları#

Bu model çıktığında, yapay zeka topluluğunda büyük bir heyecanla karşılandı ve kısa sürede çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak tespit etme ve bölütleme yeteneği, farklı sektörlerde oyunun kurallarını değiştirdi.

Örneğin, vahşi doğada nesli tükenmekte olan hayvanları takip etmek zor bir görevdir. Birçok tür yoğun ormanlarda hareket ettiğinden, koruma uzmanlarının onları takip etmesi zordur. Geleneksel yöntemler kamera tuzakları, dronlar ve uydu görüntüleri kullanır, ancak tüm bu verileri elle ayıklamak zaman alıcıdır. Yanlış tanımlamalar ve kaçırılan gözlemler koruma çabalarını yavaşlatabilir.

Kaplan çizgileri, zürafa benekleri veya fil kulaklarının şekli gibi benzersiz özellikleri tanıyarak, Mask R-CNN hayvanları görüntülerde ve videolarda daha yüksek doğrulukla tespit edebilir ve bölütleyebilir. Hayvanlar ağaçlar tarafından kısmen gizlenmiş veya birbirine yakın duruyor olsalar bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayabilir, bu da yaban hayatı izlemeyi daha hızlı ve daha güvenilir hale getirir.

Mask R-CNN kullanarak hayvanları algılama ve bölümleme

Şekil 5. Mask R-CNN kullanarak hayvanların tespiti ve segmentasyonu.

Link to this sectionMask R-CNN'in sınırlamaları#

Nesne tespiti ve segmentasyonundaki tarihsel önemine rağmen, Mask R-CNN bazı temel dezavantajlara da sahiptir. İşte Mask R-CNN ile ilgili bazı zorluklar:

Yüksek hesaplama talebi: Güçlü GPU'lara dayanır, bu da çalıştırılmasını pahalı hale getirebilir ve büyük miktarda veriyi işlerken yavaşlatabilir.
Daha yavaş işlem hızı: Çok aşamalı süreci, YOLO gibi daha hızlı gerçek zamanlı modellere kıyasla onu yavaşlatır ve bu da zamana duyarlı görevler için ideal olmayabilir.
Yüksek kaliteli verilere bağımlılık: Model en iyi performansı net, iyi etiketlenmiş görüntülerle gösterir. Bulanık veya kötü aydınlatılmış görüntüler doğruluğunu önemli ölçüde azaltabilir.
Karmaşık uygulama: Çok aşamalı mimari, özellikle büyük veri kümeleri veya sınırlı kaynaklarla uğraşırken kurulumu ve optimize edilmesi zor olabilir.

Link to this sectionMask R-CNN'den Ultralytics YOLO11'e#

Mask R-CNN segmentasyon görevleri için harikaydı, ancak birçok sektör hız ve gerçek zamanlı performansa öncelik vererek bilgisayarlı görü teknolojisini benimsemeye çalışıyordu. Bu gereksinim, araştırmacıları nesneleri tek bir geçişte tespit eden ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.

Mask R-CNN'in çok adımlı sürecinin aksine, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarlı görü modelleri, gerçek zamanlı bilgisayarlı görü görevlerine odaklanır. YOLO modelleri, tespit ve segmentasyonu ayrı ayrı ele almak yerine, bir görüntüyü tek seferde analiz edebilir. Bu da onu otonom sürüş, sağlık, üretim ve robotik gibi hızlı karar vermenin kritik olduğu uygulamalar için ideal kılar.

Özellikle YOLO11, hem hızlı hem de doğru olarak bunu bir adım öteye taşıyor. YOLOv8m'den %22 daha az parametre kullanmasına rağmen COCO veri kümesinde daha yüksek bir ortalama hassasiyet (mAP) elde eder, yani nesneleri daha hassas bir şekilde tespit eder. İyileştirilmiş işlem hızı, onu her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçenek haline getirir.

Diğer modellere kıyasla YOLO11 performansı

Şekil 6. YOLO11'in diğer modellere kıyasla performansı.

Link to this sectionÖne çıkanlar#

Bilgisayarlı görü tarihine dönüp baktığımızda, Mask R-CNN nesne tespiti ve segmentasyonunda büyük bir buluş olarak kabul edilir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok kesin sonuçlar verir.

Ancak aynı süreç, onu YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş hale getirir. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne tespiti sunan Ultralytics YOLO11 gibi tek aşamalı modelleri kullanıyor. Mask R-CNN bilgisayarlı görünün evrimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarlı görü çözümlerine yönelik artan talebi vurgulamaktadır.

Büyüyen community'mize katıl! AI hakkında daha fazla bilgi edinmek için GitHub repository sayfamızı keşfet. Kendi bilgisayarlı görü projelerine başlamaya hazır mısın? licensing options seçeneklerimize göz at. Çözüm sayfalarımızı ziyaret ederek AI in agriculture ve vision AI in healthcare hakkında bilgi edin!