U-Net mimarisi ve uygulamaları üzerine bir rehber

Abirami Vina

5 dakika okuma

15 Temmuz 2025

U-Net mimarisi, görüntü segmentasyonunu nasıl desteklediği, uygulamaları ve bilgisayarla görmenin evriminde neden önemli olduğu hakkında bilgi edinin.

Bilgisayarla görme, görsel verileri analiz etmeye odaklanan bir yapay zeka (AI) dalıdır. Fabrikalardaki ürünleri denetleme sürecini otomatikleştirmek ve otonom araçların yollarda gezinmesine yardımcı olmak gibi birçok son teknoloji sistemin önünü açmıştır. 

En iyi bilinen bilgisayarla görme görevlerinden biri nesne tespitidir. Bu görev, modellerin sınırlayıcı kutular kullanarak bir görüntü içindeki nesneleri bulmasını ve tanımlamasını sağlar. Sınırlayıcı kutular çeşitli uygulamalar için yararlı olsa da, bir nesnenin konumu hakkında yalnızca kabaca bir tahmin sağlarlar.

Bununla birlikte, sağlık hizmetleri gibi hassasiyetin çok önemli olduğu alanlarda, Vision AI kullanım durumları yalnızca bir nesneyi tanımlamaktan daha fazlasına bağlıdır. Genellikle, nesnelerin tam şekli ve konumuyla ilgili bilgilere de ihtiyaç duyarlar.

Bilgisayarla görme görevi olan segmentasyon da tam olarak bunu yapmak için tasarlanmıştır. Segmentasyon modelleri, sınırlayıcı kutular kullanmak yerine nesneleri piksel düzeyinde tespit eder. Yıllar içinde araştırmacılar segmentasyon için özel bilgisayarla görme modelleri geliştirmişlerdir.

Bu modellerden biri de U-Net'tir. Daha yeni, daha gelişmiş modeller performansını aşmış olsa da, U-Net bilgisayarla görme tarihinde önemli bir yere sahiptir. Bu makalede, U-Net mimarisine, nasıl çalıştığına, nerelerde kullanıldığına ve günümüzde mevcut olan daha modern segmentasyon modelleriyle nasıl karşılaştırıldığına daha yakından bakacağız.

Şekil 1. U-Net derin öğrenme modelini kullanan bir segmentasyon örneği.(Kaynak)

Görüntü segmentasyonunun tarihçesi

U-Net'in ne olduğuna geçmeden önce, görüntü segmentasyon modellerinin nasıl geliştiği hakkında daha iyi bir fikir edinelim.

Başlangıçta, bilgisayarla görme, bir görüntüdeki nesneleri ayırmak için kenar algılama, eşikleme veya bölge büyütme gibi geleneksel tekniklere dayanıyordu. Bu teknikler kenarları kullanarak nesne sınırlarını tespit etmek, bölgeleri piksel yoğunluğuna göre ayırmak ve benzer pikselleri gruplamak için kullanıldı. Basit durumlarda işe yaradılar ancak görüntülerde gürültü, üst üste binen şekiller veya belirsiz sınırlar olduğunda genellikle başarısız oldular.

Derin öğrenmenin 2012'deki yükselişinin ardından, araştırmacılar 2014 yılında anlamsal segmentasyon gibi görevler için tam evrişimli ağlar (FCN'ler) kavramını ortaya attılar. Bu modeller, bilgisayarın bir görüntüyü daha küçük parçalara ayırmak yerine bir kerede tüm görüntüye bakmasını sağlamak için konvolüsyonel ağın belirli bölümlerini değiştirdi. Bu, modelin bir görüntüde ne olduğunu daha net gösteren ayrıntılı haritalar oluşturmasını mümkün kıldı.

Şekil 2. Derin öğrenme tabanlı segmentasyon algoritmalarının evrimi.(Kaynak)

FCN'ler üzerine inşa edilen U-Net, 2015 yılında Freiburg Üniversitesi'ndeki araştırmacılar tarafından tanıtılmıştır. Başlangıçta biyomedikal görüntü segmentasyonu için tasarlanmıştır. Özellikle U-Net, açıklamalı verilerin sınırlı olduğu durumlarda iyi performans gösterecek şekilde tasarlanmıştır. 

Bu arada, UNet++ ve TransUNet gibi sonraki sürümler dikkat katmanları ve daha iyi özellik çıkarma gibi yükseltmeler ekledi. Dikkat katmanları modelin kilit bölgelere odaklanmasına yardımcı olurken, gelişmiş özellik çıkarımı daha ayrıntılı bilgi yakalar.

U-Net nedir ve özellikler model içinde nasıl akar?

U-Net, özellikle görüntü segmentasyonu için oluşturulmuş bir derin öğrenme modelidir. Bir görüntüyü girdi olarak alır ve her pikseli ait olduğu nesneye veya bölgeye göre sınıflandıran bir segmentasyon maskesi üretir.

Model adını U şeklindeki mimarisinden almaktadır. İki ana bölümden oluşur: görüntüyü sıkıştıran ve özelliklerini öğrenen bir kodlayıcı ve onu orijinal boyutuna geri genişleten bir kod çözücü. Bu tasarım, modelin hem görüntünün genel yapısını hem de daha ince ayrıntılarını anlamasına yardımcı olan simetrik bir U şekli oluşturur.

U-Net'in önemli bir özelliği, kodlayıcıdan gelen bilgilerin doğrudan kod çözücüye aktarılmasını sağlayan atlama bağlantılarının kullanılmasıdır. Bu, modelin görüntü sıkıştırıldığında kaybolabilecek önemli ayrıntıları koruyabileceği anlamına gelir. 

U-Net'in mimarisine genel bir bakış

İşte U-Net'in mimarisinin nasıl çalıştığına bir bakış:

  • Giriş görüntüsü: U-Net, tıbbi tarama veya uydu fotoğrafı gibi 2 boyutlu bir görüntüyle başlar. Amaç, görüntüdeki her piksele bir sınıf etiketi atamaktır.

  • Alt örnekleme: Görüntü, önemli görsel özellikleri öğrenen konvolüsyonel katmanlardan geçer. Görüntü farklı katmanlardan geçtikçe çözünürlüğü azalır ve model daha geniş desenleri tanımlar.

  • Darboğaz katmanı: Ağın merkezinde, özellik haritaları üst düzey anlamsal özellikleri yakalarken en küçük uzamsal çözünürlüklerine ulaşır. Basitçe söylemek gerekirse, özellik haritalarının bu sıkıştırılmış temsili girdinin genel bağlamıdır.

  • Üst örnekleme: Ağ daha sonra çözünürlüğü kademeli olarak artırarak görüntüyü yeniden yapılandırır. Transpoze konvolüsyonlar, özellik haritalarının orijinal boyuta doğru genişletilmesine yardımcı olur.

  • Bağlantıları atla: Aşağı örnekleme yolundan gelen özellik haritaları yukarı örnekleme yolundakilerle birleştirilir. Bu, üst düzey bağlamsal bilgileri entegre ederken ince taneli uzamsal ayrıntıların korunmasına yardımcı olur.
  • Çıktı bir segmentasyon haritasıdır: Nihai çıktı, giriş boyutuyla eşleşen piksel bazında bir segmentasyon maskesidir. Her piksel nesne, arka plan veya ilgi alanı gibi bir kategoride sınıflandırılır.
Şekil 3. U-Net mimari şeması.(Kaynak)

ViT ve U-Net arasındaki farkın anlaşılması

U-Net'i keşfederken, segmentasyon görevlerini de gerçekleştirebilen Vision Transformer (ViT) gibi diğer derin öğrenme modellerinden ne farkı olduğunu merak ediyor olabilirsiniz. Her iki model de benzer görevleri yerine getirebilirken, nasıl oluşturuldukları ve segmentasyonu nasıl ele aldıkları açısından farklılık gösterirler.

U-Net, bir kodlayıcı-kod çözücü yapısındaki konvolüsyonel katmanlar aracılığıyla görüntüleri piksel düzeyinde işleyerek çalışır. Genellikle tıbbi taramalar veya sürücüsüz araba sahneleri gibi hassas segmentasyon gerektiren görevler için kullanılır. 

Öte yandan, Vision Transformer (ViT) görüntüleri yamalara ayırır ve dikkat mekanizmaları aracılığıyla bunları aynı anda işler. U-Net'in konvolüsyonel yaklaşımından farklı olarak, görüntünün farklı bölümlerinin birbirleriyle nasıl ilişkili olduğunu yakalamak için öz dikkat (modelin görüntünün farklı bölümlerinin birbirlerine göre önemini tartmasını sağlayan bir mekanizma) kullanır.

Bir diğer önemli fark ise ViT'nin iyi çalışması için genellikle daha fazla veriye ihtiyaç duymasıdır, ancak karmaşık kalıpları yakalamada harikadır. Öte yandan U-Net, daha küçük veri kümeleriyle iyi performans gösterir ve eğitilmesi daha hızlıdır ve genellikle daha az eğitim süresi gerektirir.

U-Net modelinin uygulamaları

Artık U-Net'in ne olduğunu ve nasıl çalıştığını daha iyi anladığımıza göre, U-Net'in farklı alanlarda nasıl uygulandığını inceleyelim.

Tıbbi görüntülemede beyin kanaması segmentasyonu

U-Net, özellikle araştırma alanındaki ilk döneminde karmaşık tıbbi görüntülerin piksel düzeyinde segmentasyonu için güvenilir bir yöntem haline geldi. Araştırmacılar tarafından BT ve MRI görüntülerinde tümörler ve iç kanama belirtileri gibi tıbbi taramalardaki önemli alanları vurgulamak için kullanıldı. Bu yaklaşım, teşhislerin doğruluğunu önemli ölçüde artırdı ve araştırma ortamlarında karmaşık tıbbi verilerin analizini kolaylaştırdı.

U-Net'in sağlık araştırmalarındaki etkisine bir örnek, tıbbi taramalarda inme ve beyin kanamasının belirlenmesinde kullanılmasıdır. Araştırmacılar kafa taramalarını analiz etmek ve endişe verici alanları vurgulamak için U-Net'i kullanarak acil müdahale gerektiren vakaların daha hızlı tespit edilmesini sağlayabilir.

Şekil 4. Hemorajik inme lezyonlarının 3D U-Net kullanılarak segmentasyonu.(Kaynak)

Tarımda ürün segmentasyonu

Araştırmacıların U-Net'i kullandıkları bir diğer alan da tarım, özellikle de ekinleri, yabani otları ve toprağı bölümlere ayırmak için. Çiftçilerin bitki sağlığını izlemelerine, verimi tahmin etmelerine ve büyük çiftliklerde daha iyi kararlar almalarına yardımcı oluyor. Örneğin, U-Net mahsulleri yabani otlardan ayırarak herbisit uygulamasını daha verimli hale getirebilir ve israfı azaltabilir.

Drone görüntülerinde hareket bulanıklığı gibi zorlukların üstesinden gelmek için araştırmacılar U-Net' i görüntü bulanıklaştırma teknikleriyle geliştirdiler. Bu, hava araştırmaları gibi hareket halindeyken veri toplandığında bile daha net segmentasyon sağlar.

Şekil 5. U-Net ile tarım alanlarındaki ekinleri yabani otlardan ayırma.(Kaynak)

Otonom sürüş

Daha gelişmiş yapay zeka modelleri tanıtılmadan önce U-Net, segmentasyonun otonom sürüşü nasıl geliştirebileceğini keşfetmede hayati bir rol oynadı. Otonom araçlarda, U-Net'in semantik segmentasyonu bir görüntüdeki her pikseli yol, araç, yaya ve şerit işaretleri gibi kategorilere ayırmak için kullanılabilir. Bu, araca çevresini net bir şekilde görmesini sağlayarak güvenli navigasyona ve etkili karar vermeye yardımcı olur.

Şekil 6. Sürülebilir alanın U-Net kullanılarak bölümlere ayrıldığı bir yol sahnesi.(Kaynak)

U-Net'in artıları ve eksileri

Bugün bile U-Net, basitlik, doğruluk ve uyarlanabilirlik dengesi nedeniyle araştırmacılar arasında görüntü segmentasyonu için iyi bir seçim olmaya devam etmektedir. İşte onu öne çıkaran bazı temel avantajlar:

  • Farklı modaliteler için uyarlanabilir: U-Net, 3D tıbbi taramalar, uydu görüntüleri ve hatta video kareleri dahil olmak üzere farklı veri türlerine uyarlanmıştır.

  • Optimize edildiğinde hızlı çıkarım: Uygun şekilde ayarlandığında, U-Net verimli bir şekilde çalışabilir, bu da onu gerçek zamanlı veya gerçek zamana yakın uygulamalar için uygun hale getirir.

  • Açık kaynak ve topluluk: U-Net, başlıca derin öğrenme kütüphanelerinde mevcuttur ve geniş bir geliştirici ve araştırmacı topluluğu tarafından desteklenmektedir.

U-Net birçok güçlü yöne sahip olsa da, akılda tutulması gereken birkaç sınırlama da vardır. İşte dikkate alınması gereken bazı faktörler: 

  • Veri kalitesine duyarlıdır: U-Net'in performansı, gürültülü veya düşük çözünürlüklü görüntüler gibi düşük kaliteli verilerden olumsuz etkilenebilir.

  • Küçük veri kümeleriyle aşırı uyuma yatkındır: U-Net sınırlı verilerle iyi performans gösterse de, özellikle veri kümesi çok küçük veya çeşitlilikten yoksun olduğunda, uygun şekilde düzenlenmezse aşırı uyum sağlama riski taşır.

  • Hesaplama kaynakları: U-Net, özellikle büyük veri kümeleriyle çalışırken hesaplama açısından pahalı olabilir ve eğitim için önemli donanım kaynakları gerektirir.

Önemli çıkarımlar

U-Net, görüntü segmentasyonunun gelişiminde önemli bir kilometre taşı olmuştur. Derin öğrenme modellerinin, özellikle tıbbi görüntüleme gibi alanlarda daha küçük veri kümeleri kullanarak doğru sonuçlar verebileceğini kanıtlamıştır. 

Bu atılım, çeşitli alanlarda daha gelişmiş uygulamaların önünü açmıştır. Bilgisayarla görme gelişmeye devam ettikçe, U-Net gibi segmentasyon modelleri, makinelerin görsel verileri yüksek hassasiyetle anlamasını ve yorumlamasını sağlamada temel olmaya devam etmektedir.

Kendi yapay görme projelerinizi mi oluşturmak istiyorsunuz? Yapay zekanın derinliklerine inmek ve lisanslama seçeneklerimize göz atmak için GitHub depomuzu keşfedin. Çözüm sayfalarımızı ziyaret ederek sağlık hizmetlerinde bilgisayarla gör menin verimliliği nasıl artırdığını öğrenin ve perakendede yapay zekanın etkisini keşfedin! Büyüyen topluluğumuza şimdi katılın!

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı