YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

U-Net mimarisi ve uygulamaları hakkında bir rehber

Abirami Vina

5 dakikalık okuma

15 Temmuz 2025

U-Net mimarisi, görüntü segmentasyonunu nasıl desteklediği, uygulamaları ve bilgisayar görüşünün evrimindeki önemi hakkında bilgi edinin.

Bilgisayarlı görü, görsel verileri analiz etmeye odaklanan bir yapay zeka (AI) dalıdır. Fabrikalarda ürünleri inceleme sürecini otomatikleştirmek ve otonom araçların yollarda gezinmesine yardımcı olmak gibi birçok son teknoloji sisteminin önünü açmıştır. 

En bilinen bilgisayarlı görü görevlerinden biri nesne tespitidir. Bu görev, modellerin sınırlayıcı kutular kullanarak bir görüntü içindeki nesneleri bulmasını ve tanımlamasını sağlar. Sınırlayıcı kutular çeşitli uygulamalar için yararlı olsa da, yalnızca bir nesnenin konumu hakkında kabaca bir tahmin sağlarlar.

Ancak, sağlık hizmetleri gibi hassasiyetin çok önemli olduğu alanlarda, Görüntü İşleme Yapay Zeka kullanım durumları yalnızca bir nesneyi tanımlamaktan daha fazlasına bağlıdır. Genellikle, nesnelerin tam şekli ve konumuyla ilgili bilgilere de ihtiyaç duyarlar.

Bilgisayarlı görü görevi olan segmentasyonun tam olarak yapması amaçlanan şey de budur. Segmentasyon modelleri, sınırlayıcı kutular kullanmak yerine nesneleri piksel düzeyinde algılar. Yıllar içinde araştırmacılar, segmentasyon için özel bilgisayarlı görü modelleri geliştirdiler.

Bu tür bir model U-Net'tir. Daha yeni, daha gelişmiş modeller performansını aşmış olsa da, U-Net bilgisayarlı görü tarihinde önemli bir yere sahiptir. Bu makalede, U-Net mimarisine, nasıl çalıştığına, nerede kullanıldığına ve günümüzde mevcut olan daha modern segmentasyon modelleriyle nasıl karşılaştırıldığına daha yakından bakacağız.

Şekil 1. U-Net derin öğrenme modeli kullanılarak yapılan segmentasyona bir örnek. (Kaynak)

Görüntü segmentasyonunun tarihi

U-Net'in ne olduğuna dalmadan önce, öncelikle görüntü segmentasyonu modellerinin nasıl geliştiğine dair daha iyi bir fikir edinelim.

Başlangıçta, bilgisayarlı görü, bir görüntüdeki nesneleri ayırmak için kenar algılama, eşikleme veya bölge büyütme gibi geleneksel tekniklere dayanıyordu. Bu teknikler, kenarları kullanarak nesne sınırlarını algılamak, bölgeleri piksel yoğunluğuna göre ayırmak ve benzer pikselleri gruplandırmak için kullanılıyordu. Basit durumlarda işe yarıyorlardı, ancak görüntülerde gürültü, örtüşen şekiller veya belirsiz sınırlar olduğunda genellikle başarısız oluyorlardı.

2012'de derin öğrenmenin yükselişini takiben, araştırmacılar 2014 yılında semantik segmentasyon gibi görevler için tamamen evrişimli ağlar (FCN'ler) kavramını tanıttılar. Bu modeller, bilgisayarın daha küçük parçalara ayırmak yerine bir görüntünün tamamına aynı anda bakmasına izin vermek için bir evrişimli ağın belirli kısımlarını değiştirdi. Bu, modelin bir görüntüde ne olduğunu daha net bir şekilde gösteren ayrıntılı haritalar oluşturmasını mümkün kıldı.

Şekil 2. Derin öğrenme tabanlı segmentasyon algoritmalarının evrimi. (Kaynak)

FCN'ler üzerine inşa edilen U-Net, 2015 yılında Freiburg Üniversitesi'ndeki araştırmacılar tarafından tanıtıldı. Başlangıçta biyomedikal görüntü segmentasyonu için tasarlanmıştı. Özellikle U-Net, açıklanmış verilerin sınırlı olduğu durumlarda iyi performans gösterecek şekilde tasarlanmıştır. 

Bu arada, UNet++ ve TransUNet gibi sonraki sürümler, dikkat katmanları ve daha iyi özellik çıkarımı gibi yükseltmeler ekledi. Dikkat katmanları, modelin temel bölgelere odaklanmasına yardımcı olurken, gelişmiş özellik çıkarımı daha ayrıntılı bilgi yakalar.

U-Net nedir ve özellikler modelde nasıl akar?

U-Net, özellikle görüntü segmentasyonu için oluşturulmuş bir derin öğrenme modelidir. Girdi olarak bir görüntü alır ve her pikseli ait olduğu nesneye veya bölgeye göre sınıflandıran bir segmentasyon maskesi üretir.

Model, adını U şeklindeki mimarisinden almaktadır. İki ana bölümden oluşur: görüntüyü sıkıştıran ve özelliklerini öğrenen bir kodlayıcı ve onu orijinal boyutuna geri genişleten bir kod çözücü. Bu tasarım, modelin hem bir görüntünün genel yapısını hem de daha ince ayrıntılarını anlamasına yardımcı olan simetrik bir U şekli oluşturur.

U-Net'in önemli bir özelliği, kodlayıcıdan gelen bilgilerin doğrudan kod çözücüye aktarılmasına olanak tanıyan atlama bağlantılarının kullanılmasıdır. Bu, modelin görüntünün sıkıştırılması sırasında kaybolabilecek önemli ayrıntıları koruyabileceği anlamına gelir. 

U-Net'in mimarisine genel bir bakış

İşte U-Net'in mimarisinin nasıl çalıştığına dair kısa bir bakış:

  • Giriş görüntüsü: U-Net, tıbbi bir tarama veya bir uydu fotoğrafı gibi 2B bir görüntüyle başlar. Amaç, görüntüdeki her piksele bir sınıf etiketi atamaktır.

  • Alt Örnekleme: Görüntü, önemli görsel özellikleri öğrenen evrişimli katmanlardan geçer. Görüntü farklı katmanlardan geçerken çözünürlüğü azalır ve model daha geniş kalıpları tanımlar.

  • Darboğaz katmanı (Bottleneck layer): Ağın merkezinde, özellik haritaları, üst düzey semantik özellikleri yakalarken en küçük uzamsal çözünürlüklerine ulaşır. Basitçe söylemek gerekirse, özellik haritalarının bu sıkıştırılmış gösterimi, girdinin genel bağlamıdır.

  • Yukarı Örnekleme (Upsampling): Ağ daha sonra çözünürlüğü kademeli olarak artırarak görüntüyü yeniden oluşturur. Transpoze evrişimler, özellik haritalarını orijinal boyutuna geri genişletmeye yardımcı olur.

  • Atlama bağlantıları: Aşağı örnekleme yolundaki özellik haritaları, yukarı örnekleme yolundakilerle birleştirilir. Bu, üst düzey bağlamsal bilgileri entegre ederken ince taneli mekansal ayrıntıları korumaya yardımcı olur.
  • Çıktı bir segmentasyon haritasıdır: Son çıktı, girdi boyutuyla eşleşen piksel bazında bir segmentasyon maskesidir. Her piksel, nesne, arka plan veya ilgi alanı gibi bir kategoriye sınıflandırılır.
Şekil 3. U-Net mimari diyagramı. (Kaynak)

ViT ve U-Net arasındaki farkı anlama

U-Net'i keşfederken, segmentasyon görevlerini de gerçekleştirebilen Vision Transformer (ViT) gibi diğer derin öğrenme modellerinden nasıl farklı olduğunu merak ediyor olabilirsiniz. Her iki model de benzer görevleri gerçekleştirebilse de, inşa edilme ve segmentasyonu ele alma biçimleri açısından farklılık gösterirler.

U-Net, görüntüleri bir kodlayıcı-çözücü yapısında evrişim katmanları aracılığıyla piksel düzeyinde işleyerek çalışır. Genellikle tıbbi taramalar veya otonom sürüş araba sahneleri gibi hassas segmentasyon gerektiren görevler için kullanılır. 

Öte yandan, Vision Transformer (ViT), görüntüleri parçalara ayırır ve dikkat mekanizmaları aracılığıyla aynı anda işler. U-Net'in evrişimsel yaklaşımının aksine, görüntünün farklı bölümlerinin birbiriyle nasıl ilişkili olduğunu yakalamak için öz-dikkat (modelin görüntünün farklı bölümlerinin önemini birbirine göre tartmasına olanak tanıyan bir mekanizma) kullanır.

Bir diğer önemli fark ise ViT'nin iyi çalışması için genellikle daha fazla veriye ihtiyaç duyması, ancak karmaşık kalıpları yakalamada harika olmasıdır. Öte yandan U-Net, daha küçük veri kümeleriyle iyi performans gösterir, eğitilmesi daha hızlıdır ve genellikle daha az eğitim süresi gerektirir.

U-Net modelinin uygulamaları

U-Net'in ne olduğunu ve nasıl çalıştığını daha iyi anladığımıza göre, U-Net'in farklı alanlarda nasıl uygulandığını keşfedelim.

Tıbbi görüntülemede beyin kanaması segmentasyonu

U-Net, özellikle araştırmalarda en iyi döneminde, karmaşık tıbbi görüntülerin piksel düzeyinde segmentasyonu için güvenilir bir yöntem haline geldi. Araştırmacılar tarafından, tümörler ve BT ve MR görüntülerindeki iç kanama belirtileri gibi tıbbi taramalardaki önemli alanları vurgulamak için kullanıldı. Bu yaklaşım, teşhislerin doğruluğunu önemli ölçüde artırdı ve araştırma ortamlarında karmaşık tıbbi verilerin analizini kolaylaştırdı.

U-Net'in sağlık araştırmalarındaki etkisine bir örnek, tıbbi taramalarda inme ve beyin kanamasını belirlemede kullanılmasıdır. Araştırmacılar, kafa taramalarını analiz etmek ve endişe alanlarını vurgulamak için U-Net'i kullanarak acil müdahale gerektiren vakaların daha hızlı tespit edilmesini sağlayabilir.

Şekil 4. 3D U-Net kullanılarak hemorajik inme lezyonlarının segmentasyonu.

Tarımda ürün segmentasyonu

Araştırmacıların U-Net'i kullandığı bir diğer alan da tarım, özellikle de mahsulleri, yabani otları ve toprağı bölümlere ayırmaktır. Çiftçilerin bitki sağlığını izlemesine, verimi tahmin etmesine ve büyük çiftliklerde daha iyi kararlar almasına yardımcı olur. Örneğin, U-Net, mahsulleri yabani otlardan ayırarak herbisit uygulamasını daha verimli hale getirebilir ve israfı azaltabilir.

Araştırmacılar, drone görüntülerindeki hareket bulanıklığı gibi zorlukların üstesinden gelmek için U-Net'i görüntü bulanıklığı giderme teknikleriyle geliştirdiler. Bu, hava araştırmaları gibi hareket halindeyken veri toplandığında bile daha net segmentasyon sağlar.

Şekil 5. U-Net ile tarım alanlarında mahsulleri yabani otlardan ayırma. (Kaynak)

Otonom sürüş

Daha gelişmiş yapay zeka modelleri tanıtılmadan önce, U-Net, segmentasyonun otonom sürüşü nasıl geliştirebileceğini keşfetmede hayati bir rol oynadı. Otonom araçlarda, U-Net'in semantik segmentasyonu, bir görüntüdeki her pikseli yol, araç, yaya ve şerit işaretleri gibi kategorilere ayırmak için kullanılabilir. Bu, arabaya çevresinin net bir görüntüsünü sağlayarak güvenli navigasyona ve etkili karar almaya yardımcı olur.

Şekil 6. U-Net kullanılarak sürülebilir alanın bölümlere ayrıldığı bir yol sahnesi. (Kaynak)

U-Net'in artıları ve eksileri

Günümüzde bile U-Net, basitlik, doğruluk ve uyarlanabilirlik dengesi nedeniyle araştırmacılar arasında görüntü segmentasyonu için iyi bir seçim olmaya devam ediyor. İşte onu öne çıkaran temel avantajlardan bazıları:

  • Farklı yöntemler için uyarlanabilir: U-Net, 3D tıbbi taramalar, uydu görüntüleri ve hatta video kareleri dahil olmak üzere farklı veri türlerine uyarlanmıştır.

  • Optimize edildiğinde hızlı çıkarım: Uygun şekilde ayarlandığında, U-Net verimli bir şekilde çalışabilir ve bu da onu gerçek zamanlı veya neredeyse gerçek zamanlı uygulamalar için uygun hale getirir.

  • Açık kaynak ve topluluk: U-Net, başlıca derin öğrenme kütüphanelerinde mevcuttur ve geniş bir geliştirici ve araştırmacı topluluğu tarafından desteklenmektedir.

U-Net'in birçok güçlü yönü olmakla birlikte, akılda tutulması gereken birkaç sınırlama da vardır. İşte dikkate alınması gereken bazı faktörler: 

  • Sensitive to data quality (Veri kalitesine duyarlı):U-Net'in performansı, gürültülü veya düşük çözünürlüklü görüntüler gibi düşük kaliteli verilerden olumsuz etkilenebilir.

  • Küçük veri kümeleriyle aşırı öğrenmeye yatkın: U-Net sınırlı verilerle iyi performans gösterse de, özellikle veri kümesi çok küçük veya çeşitlilikten yoksun olduğunda, uygun şekilde düzenlenmediği takdirde yine de aşırı öğrenme riski taşır.

  • Hesaplama kaynakları: U-Net, özellikle büyük veri kümeleriyle çalışırken, eğitim için önemli donanım kaynakları gerektiren, hesaplama açısından maliyetli olabilir.

Önemli çıkarımlar

U-Net, görüntü segmentasyonunun evriminde önemli bir kilometre taşı olmuştur. Özellikle tıbbi görüntüleme gibi alanlarda, derin öğrenme modellerinin daha küçük veri kümeleri kullanarak doğru sonuçlar verebileceğini kanıtlamıştır. 

Bu atılım, çeşitli alanlarda daha gelişmiş uygulamaların önünü açmıştır. Bilgisayarlı görü gelişmeye devam ederken, U-Net gibi segmentasyon modelleri, makinelerin görsel verileri yüksek hassasiyetle anlamasını ve yorumlamasını sağlamada temel olmaya devam ediyor.

Kendi bilgisayar görüşü projelerinizi oluşturmak mı istiyorsunuz? Yapay zekaya daha derinlemesine dalmak için GitHub depomuzu keşfedin ve lisanslama seçeneklerimize göz atın. Sağlık hizmetlerinde bilgisayar görüşünün verimliliği nasıl artırdığını öğrenin ve çözümler sayfalarımızı ziyaret ederek perakendede yapay zekanın etkisini keşfedin! Büyüyen topluluğumuza şimdi katılın!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı