Entegrasyonlar

U-Net mimarisi ve uygulamaları üzerine bir rehber

U-Net mimarisi, görüntü bölümlemeyi nasıl desteklediği, uygulamaları ve bilgisayarlı görünün evrimindeki önemi hakkında bilgi edin.

ABAbirami Vina

5 min readJuly 15, 2025

Bilgisayarlı görü, görsel verilerin analizine odaklanan bir yapay zeka (YZ) dalıdır. Fabrikalardaki ürünlerin denetim sürecini otomatikleştirmek ve otonom araçların yollarda seyretmesine yardımcı olmak gibi birçok yenilikçi sistemin önünü açmıştır.

En bilinen bilgisayarlı görü görevlerinden biri nesne tespitidir. Bu görev, modellerin sınırlayıcı kutular kullanarak bir görüntü içindeki nesneleri bulmasını ve tanımlamasını sağlar. Sınırlayıcı kutular çeşitli uygulamalar için yararlı olsa da, bunlar yalnızca nesnenin konumuna dair kaba bir tahmin sunar.

Ancak hassasiyetin kritik olduğu sağlık gibi alanlarda, görme tabanlı YZ kullanım durumları yalnızca bir nesneyi tanımlamaktan daha fazlasına bağlıdır. Çoğu zaman, nesnelerin tam şekli ve konumuyla ilgili bilgilere de ihtiyaç duyarlar.

Bilgisayarlı görü görevi olan segmentasyon tam olarak bunu yapmak için tasarlanmıştır. Segmentasyon modelleri, sınırlayıcı kutular kullanmak yerine nesneleri piksel düzeyinde tespit eder. Araştırmacılar yıllar içinde segmentasyon için özel bilgisayarlı görü modelleri geliştirmişlerdir.

Bu modellerden biri de U-Net'tir. Daha yeni ve gelişmiş modeller performansını geride bırakmış olsa da, U-Net bilgisayarlı görü tarihinde önemli bir yere sahiptir. Bu makalede, U-Net mimarisine, nasıl çalıştığına, nerelerde kullanıldığına ve günümüzde mevcut olan daha modern segmentasyon modelleriyle nasıl kıyaslandığına yakından bakacağız.

U-Net derin öğrenme modeli kullanılarak bir hava sahnesinin segmentasyonu

Şekil 1. U-Net derin öğrenme modeli kullanılarak segmentasyon örneği. (Kaynak)

Link to this sectionGörüntü segmentasyonunun geçmişi#

U-Net'in ne olduğuna dalmadan önce, görüntü segmentasyonu modellerinin nasıl evrildiğine dair daha iyi bir fikir edinelim.

Başlangıçta bilgisayarlı görü, bir görüntüdeki nesneleri ayırmak için kenar tespiti, eşikleme veya bölge büyütme gibi geleneksel tekniklere güveniyordu. Bu teknikler, kenarları kullanarak nesne sınırlarını tespit etmek, bölgeleri piksel yoğunluğuna göre ayırmak ve benzer pikselleri gruplamak için kullanılıyordu. Basit durumlarda çalışıyorlardı ancak görüntüler gürültülü olduğunda, şekiller çakıştığında veya sınırlar belirsiz olduğunda genellikle başarısız oluyorlardı.

2012'de derin öğrenmenin yükselişinin ardından araştırmacılar, 2014 yılında semantik segmentasyon gibi görevler için tam evrişimli ağlar (FCN) kavramını tanıttı. Bu modeller, bilgisayarın görüntüyü daha küçük parçalara bölmek yerine bir bütün olarak görmesini sağlamak için bir evrişimli ağın belirli bölümlerinin yerini aldı. Bu, modelin görüntüde ne olduğunu daha net bir şekilde gösteren ayrıntılı haritalar oluşturmasını mümkün kıldı.

Derin öğrenme tabanlı segmentasyon algoritmalarının evrim zaman çizelgesi

Şekil 2. Derin öğrenme tabanlı segmentasyon algoritmalarının evrimi. (Kaynak)

FCN'ler üzerine inşa edilen U-Net, 2015 yılında Freiburg Üniversitesi'ndeki araştırmacılar tarafından tanıtıldı. Aslen biyomedikal görüntü segmentasyonu için tasarlanmıştı. Özellikle U-Net, açıklamalı verilerin sınırlı olduğu durumlarda iyi performans göstermesi için geliştirilmişti.

Bu arada, UNet++ ve TransUNet gibi sonraki sürümler, dikkat katmanları ve daha iyi özellik çıkarımı gibi yükseltmeler ekledi. Dikkat katmanları modelin önemli bölgelere odaklanmasına yardımcı olurken, geliştirilmiş özellik çıkarımı daha detaylı bilgileri yakalar.

Link to this sectionU-Net nedir ve özellikler model içinde nasıl akar?#

U-Net, özellikle görüntü segmentasyonu için oluşturulmuş bir derin öğrenme modelidir. Girdisi bir görüntü alır ve her pikseli ait olduğu nesneye veya bölgeye göre sınıflandıran bir segmentasyon maskesi üretir.

Model adını U şeklindeki mimarisinden alır. İki ana kısımdan oluşur: görüntüyü sıkıştıran ve özelliklerini öğrenen bir kodlayıcı (encoder) ve onu orijinal boyutuna geri genişleten bir kod çözücü (decoder). Bu tasarım, modelin hem görüntünün genel yapısını hem de daha ince detaylarını anlamasına yardımcı olan simetrik bir U şekli oluşturur.

U-Net'in kritik bir özelliği, kodlayıcıdan gelen bilgilerin doğrudan kod çözücüye iletilmesine olanak tanıyan atlama bağlantılarının (skip connections) kullanılmasıdır. Bu, modelin görüntü sıkıştırıldığında kaybolabilecek önemli detayları koruyabileceği anlamına gelir.

Link to this sectionU-Net'in mimarisine genel bakış#

İşte U-Net mimarisinin nasıl çalıştığına dair bir özet:

Girdi görüntüsü: U-Net, tıbbi tarama veya uydu fotoğrafı gibi 2D bir görüntüyle başlar. Amaç, görüntüdeki her piksele bir sınıf etiketi atamaktır.
Aşağı örnekleme (Downsampling): Görüntü, önemli görsel özellikleri öğrenen evrişimli katmanlardan geçer. Görüntü farklı katmanlardan geçtikçe çözünürlüğü azalır ve model daha geniş desenleri tanımlar.
Dar boğaz katmanı (Bottleneck layer): Ağın merkezinde, özellik haritaları yüksek seviyeli semantik özellikleri yakalarken en küçük uzamsal çözünürlüğe ulaşır. Basitçe ifade etmek gerekirse, özellik haritalarının bu sıkıştırılmış temsili, girdinin genel bağlamıdır.
Yukarı örnekleme (Upsampling): Ağ daha sonra çözünürlüğü kademeli olarak artırarak görüntüyü yeniden oluşturur. Transpoze evrişimler, özellik haritalarını orijinal boyuta doğru genişletmeye yardımcı olur.
Atlama bağlantıları: Aşağı örnekleme yolundaki özellik haritaları, yukarı örnekleme yolundakilerle birleştirilir. Bu, yüksek seviyeli bağlamsal bilgileri entegre ederken ince ayrıntılı uzamsal detayların korunmasına yardımcı olur.
Çıktı bir segmentasyon haritasıdır: Nihai çıktı, girdi boyutuyla eşleşen piksel bazlı bir segmentasyon maskesidir. Her piksel nesne, arka plan veya ilgi alanı gibi bir kategoriye sınıflandırılır.

U-Net kodlayıcı-kod çözücü mimarisinin diyagramı

Şekil 3. U-Net mimarisi diyagramı. (Kaynak)

Link to this sectionViT ve U-Net arasındaki farkı anlamak#

U-Net'i keşfederken, segmentasyon görevlerini de gerçekleştirebilen Vision Transformer (ViT) gibi diğer derin öğrenme modellerinden nasıl farklı olduğunu merak edebilirsin. Her iki model de benzer görevleri yerine getirebilse de, nasıl oluşturuldukları ve segmentasyonu nasıl ele aldıkları açısından farklılık gösterirler.

U-Net, kodlayıcı-kod çözücü yapısındaki evrişimli katmanlar aracılığıyla görüntüleri piksel düzeyinde işleyerek çalışır. Genellikle tıbbi taramalar veya sürücüsüz araç sahneleri gibi hassas segmentasyon gerektiren görevler için kullanılır.

Öte yandan Vision Transformer (ViT), görüntüleri yamalara (patches) böler ve bunları dikkat mekanizmaları aracılığıyla eşzamanlı olarak işler. U-Net'in evrişimli yaklaşımının aksine, görüntünün farklı bölümlerinin birbirine göre önemini tartmasını sağlayan bir mekanizma olan öz-dikkat (self-attention) kullanarak, görüntünün farklı bölümlerinin birbiriyle nasıl ilişkili olduğunu yakalar.

Bir diğer önemli fark, ViT'nin genellikle iyi çalışmak için daha fazla veriye ihtiyaç duymasıdır, ancak karmaşık desenleri yakalamada harikadır. U-Net ise daha küçük veri kümeleriyle iyi performans gösterir, eğitilmesi daha hızlıdır ve genellikle daha az eğitim süresi gerektirir.

Link to this sectionU-Net modelinin uygulamaları#

Artık U-Net'in ne olduğunu ve nasıl çalıştığını daha iyi anladığımıza göre, U-Net'in farklı alanlarda nasıl uygulandığını keşfedelim.

Link to this sectionTıbbi görüntülemede beyin kanaması segmentasyonu#

U-Net, özellikle araştırmalardaki zirve döneminde, karmaşık tıbbi görüntülerin piksel düzeyinde segmentasyonu için güvenilir bir yöntem haline geldi. Araştırmacılar tarafından CT ve MRI görüntülerindeki tümörler ve iç kanama belirtileri gibi tıbbi taramalardaki önemli alanları vurgulamak için kullanıldı. Bu yaklaşım, teşhislerin doğruluğunu önemli ölçüde artırdı ve araştırma ortamlarında karmaşık tıbbi verilerin analizini kolaylaştırdı.

U-Net'in sağlık araştırmalarındaki etkisine bir örnek, tıbbi taramalarda felç ve beyin kanamasının tanımlanmasında kullanılmasıdır. Araştırmacılar, kafa taramalarını analiz etmek ve endişe verici alanları vurgulamak için U-Net'i kullanarak acil müdahale gerektiren vakaların daha hızlı tanımlanmasını sağlayabildiler.

3D U-Net kullanılarak tıbbi taramalardaki hemorajik inme lezyonlarının segmentasyonu

Şekil 4. 3D U-Net kullanılarak hemorajik inme lezyonlarının segmentasyonu. (Kaynak)

Link to this sectionTarımda mahsul segmentasyonu#

Araştırmacıların U-Net'i kullandığı bir diğer alan, özellikle mahsullerin, yabani otların ve toprağın segmentasyonu için tarımdır. Çiftçilerin bitki sağlığını izlemelerine, verimi tahmin etmelerine ve büyük çiftliklerde daha iyi kararlar almalarına yardımcı olur. Örneğin U-Net, mahsulleri yabani otlardan ayırabilir, bu da herbisit uygulamasını daha verimli hale getirir ve israfı azaltır.

İHA görüntülerindeki hareket bulanıklığı gibi zorlukları ele almak için araştırmacılar, U-Net'i görüntü bulanıklığını giderme teknikleriyle geliştirdiler. Bu, hava araştırmaları sırasında olduğu gibi hareket halindeyken veri toplandığında bile daha net bir segmentasyon sağlar.

Bir tarım arazisinde ürünleri yabani otlardan ayıran U-Net

Şekil 5. U-Net ile tarım alanlarındaki mahsullerin yabani otlardan ayrılması. (Kaynak)

Link to this sectionOtonom sürüş#

Daha gelişmiş YZ modelleri tanıtılmadan önce U-Net, segmentasyonun otonom sürüşü nasıl geliştirebileceğini araştırmada hayati bir rol oynadı. Otonom araçlarda, U-Net'in semantik segmentasyonu, bir görüntüdeki her pikseli yol, araç, yaya ve şerit işaretleri gibi kategorilere sınıflandırmak için kullanılabilir. Bu, araca çevresinin net bir görünümünü sağlayarak güvenli seyir ve etkili karar alma süreçlerine yardımcı olur.

U-Net kullanılarak sürülebilir alanın bölümlendiği yol sahnesi

Şekil 6. Sürülebilir alanın U-Net kullanılarak segmentasyonunun yapıldığı bir yol sahnesi. (Kaynak)

Link to this sectionU-Net'in artıları ve eksileri#

Bugün bile U-Net, basitlik, doğruluk ve uyarlanabilirlik dengesi nedeniyle araştırmacılar arasında görüntü segmentasyonu için iyi bir seçim olmaya devam ediyor. Öne çıkmasını sağlayan temel avantajlardan bazıları şunlardır:

Farklı yöntemler için uyarlanabilir: U-Net, 3D tıbbi taramalar, uydu görüntüleri ve hatta video kareleri dahil olmak üzere farklı veri türlerine uyarlanmıştır.
Optimize edildiğinde hızlı çıkarım: Doğru bir şekilde ayarlandığında U-Net verimli çalışabilir, bu da onu gerçek zamanlı veya gerçek zamana yakın uygulamalar için uygun hale getirir.
Açık kaynak ve topluluk: U-Net, büyük derin öğrenme kütüphanelerinde mevcuttur ve büyük bir geliştirici ve araştırmacı topluluğu tarafından desteklenmektedir.

U-Net'in birçok güçlü yönü olsa da, akılda tutulması gereken birkaç sınırlama da vardır. İşte dikkate alınması gereken bazı faktörler:

Veri kalitesine duyarlı: U-Net'in performansı, gürültülü veya düşük çözünürlüklü görüntüler gibi düşük kaliteli verilerden olumsuz etkilenebilir.
Küçük veri kümeleriyle aşırı uyuma (overfitting) yatkın: U-Net sınırlı verilerle iyi performans gösterse de, özellikle veri kümesi çok küçükse veya çeşitlilikten yoksunsa, doğru bir şekilde düzenlenmediği takdirde aşırı uyum riski taşır.
Hesaplama kaynakları: U-Net, özellikle büyük veri kümeleriyle çalışırken hesaplama açısından pahalı olabilir ve eğitim için önemli donanım kaynakları gerektirir.

Link to this sectionÖne çıkanlar#

U-Net, görüntü segmentasyonunun evriminde önemli bir dönüm noktası olmuştur. Derin öğrenme modellerinin, özellikle tıbbi görüntüleme gibi alanlarda daha küçük veri kümeleri kullanarak doğru sonuçlar verebileceğini kanıtladı.

Bu atılım, çeşitli alanlarda daha gelişmiş uygulamaların önünü açtı. Bilgisayarlı görü gelişmeye devam ettikçe, U-Net gibi segmentasyon modelleri makinelerin görsel verileri yüksek hassasiyetle anlamasını ve yorumlamasını sağlamada temel bir rol oynamaya devam ediyor.

Kendi bilgisayarlı görü projelerini oluşturmak mı istiyorsun? YZ konusuna daha derinlemesine dalmak için GitHub depomuzu keşfet ve lisanslama seçeneklerimize göz at. Sağlık hizmetlerinde bilgisayarlı görünün verimliliği nasıl artırdığını öğren ve çözüm sayfalarımızı ziyaret ederek perakendede YZ etkisini keşfet! Büyüyen topluluğumuza şimdi katıl!

Explore solutions

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

U-Net mimarisi ve uygulamaları üzerine bir rehber

Link to this sectionGörüntü segmentasyonunun geçmişi#

Link to this sectionU-Net nedir ve özellikler model içinde nasıl akar?#

Link to this sectionU-Net'in mimarisine genel bakış#

Link to this sectionViT ve U-Net arasındaki farkı anlamak#

Link to this sectionU-Net modelinin uygulamaları#

Link to this sectionTıbbi görüntülemede beyin kanaması segmentasyonu#

Link to this sectionTarımda mahsul segmentasyonu#

Link to this sectionOtonom sürüş#

Link to this sectionU-Net'in artıları ve eksileri#

Link to this sectionÖne çıkanlar#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!