Omurga (Backbone)
Derin öğrenmede backbone'ların rolünü keşfedin, ResNet ve ViT gibi en iyi mimarileri inceleyin ve gerçek dünya yapay zeka uygulamalarını öğrenin.
Bir omurga (backbone), özellikle bilgisayarla görme (CV) alanında, bir derin öğrenme modelinin temel bir bileşenidir. Birincil özellik çıkarımı ağı olarak hizmet eder. Temel görevi, bir görüntü gibi ham girdi verilerini almak ve bunları nesne tespiti, görüntü segmentasyonu veya sınıflandırma gibi sonraki görevler için kullanılabilecek üst düzey özellikler veya özellik haritaları kümesine dönüştürmektir. Omurgayı, bir görüntüdeki kenarlar, dokular, şekiller ve nesneler gibi temel desenleri "görmeyi" ve anlamayı öğrenen sinir ağının (NN) bir parçası olarak düşünebilirsiniz.
Backbone'lar Nasıl Çalışır?
Omurga genellikle ImageNet gibi büyük ölçekli bir görüntü sınıflandırma veri kümesi üzerinde önceden eğitilmiş derin bir Evrişimsel Sinir Ağıdır (CNN). Bir transfer öğrenimi biçimi olan bu ön eğitim süreci, ağa geniş bir genel görsel özellik kitaplığını tanımayı öğretir. Yeni bir görev için bir model oluştururken, geliştiriciler genellikle sıfırdan başlamak yerine bu önceden eğitilmiş omurgaları kullanır. Bu yaklaşım, eğitim süresini ve gereken etiketli veri miktarını önemli ölçüde azaltırken, genellikle model performansını artırır. Omurga tarafından çıkarılan özellikler daha sonra ağın "boyun" ve "kafa" bölümlerine aktarılır ve bu bölümler daha fazla işlem gerçekleştirir ve son çıktıyı oluşturur. Omurga seçimi genellikle doğruluk, model boyutu ve çıkarım gecikmesi arasında bir denge içerir ve bu da gerçek zamanlı performans elde etmek için çok önemlidir.
Yaygın Omurga Mimarileri
Backbone'ların tasarımı yıllar içinde gelişti ve her yeni mimari verimlilik ve performansta iyileştirmeler sundu. En etkili backbone mimarilerinden bazıları şunlardır:
- Artık Ağlar (ResNet): Microsoft Research tarafından tanıtılan ResNet modelleri, ağın artık fonksiyonları öğrenmesini sağlamak için "atlama bağlantıları" kullanır. Bu yenilik, kaybolan gradyan sorunundan muzdarip olmadan çok daha derin ağları eğitmeyi mümkün kılmıştır.
- EfficientNet: Google AI tarafından geliştirilen bu model ailesi, ağ derinliğini, genişliğini ve çözünürlüğünü eşit şekilde dengelemek için bileşik bir ölçeklendirme yöntemi kullanır. Bu, hem yüksek doğruluklu hem de hesaplama açısından verimli modellerle sonuçlanır.
- Vizyon Dönüştürücüsü (ViT): Başarılı Transformer mimarisini NLP 'den vizyona uyarlayan ViT'ler, bir görüntüyü bir dizi yama olarak ele alır ve küresel bağlamı yakalamak için kendi kendine dikkati kullanır ve CNN'lerin yerel alıcı alanlarına kıyasla farklı bir yaklaşım sunar.
- CSPNet (Çapraz Aşamalı Kısmi Ağ): Orijinal makalesinde açıklanan bu mimari, bir ağ aşamasının başından ve sonundan özellik haritalarını entegre ederek öğrenmeyi geliştirir, bu da gradyan yayılımını artırır ve hesaplama darboğazlarını azaltır. Birçok Ultralytics YOLO modelinde önemli bir bileşendir.
Omurga (Backbone) - Baş ve Boyun Karşılaştırması
Tipik bir nesne algılama mimarisinde, model üç ana bölümden oluşur:
- Omurga (Backbone): Rolü, girdi görüntüsünden özellik çıkarımı gerçekleştirmek ve çeşitli ölçeklerde özellik haritaları oluşturmaktır.
- Boyun: Bu bileşen, omurga ve baş arasında yer alır. Omurgadan gelen özellik haritalarını iyileştirir ve toplar, genellikle daha zengin bir temsil oluşturmak için farklı katmanlardan gelen özellikleri birleştirir. Yaygın bir örnek, Özellik Piramidi Ağı'dır (FPN).
- Algılama Kafası: Bu, boyundan rafine özellikleri alan ve gerçek algılama görevini yerine getiren ağın son kısmıdır. Görüntüdeki nesneler için sınırlayıcı kutuları, sınıf etiketlerini ve güven puanlarını tahmin eder.
Bu nedenle omurga, algılama modelinin geri kalanının üzerine inşa edildiği temeldir. YOLOv8 ve YOLO11 gibi modeller, çeşitli görevlerde son teknoloji performansları için gerekli olan yüksek kaliteli özellik çıkarımını sağlamak için güçlü omurgalar entegre eder. Mimari seçimlerin performansı nasıl etkilediğini görmek için farklı YOLO model karşılaştırmalarını keşfedebilirsiniz.
Gerçek Dünya Uygulamaları
Omurgalar, sayısız yapay zeka uygulamasında temel bileşenlerdir:
- Otonom Sürüş: Sürücüsüz araçlardaki sistemler, kamera ve LiDAR sensörlerinden gelen girdileri işlemek için büyük ölçüde sağlam omurgalara (örneğin, ResNet veya EfficientNet varyantları) güvenir. Çıkarılan özellikler, Waymo gibi şirketler tarafından geliştirilen sistemlerde görüldüğü gibi, güvenli navigasyon ve karar verme için çok önemli olan araçların, yayaların, trafik ışıklarının ve şerit çizgilerinin algılanmasını ve sınıflandırılmasını sağlar.
- Tıbbi Görüntü Analizi: Sağlık hizmetleri yapay zeka çözümlerinde omurgalar X-ışınları, CT'ler veya MRI'lar gibi tıbbi taramaları analiz etmek için kullanılır. Örneğin, DenseNet gibi bir omurga, pnömoni belirtilerini tespit etmeye yardımcı olmak için bir göğüs röntgeninden veya potansiyel tümörleri tanımlamak için bir CT taramasından özellikler çıkarabilir(ilgili araştırma Radyoloji: AI). Bu da radyologlara teşhis ve tedavi planlamasında yardımcı olur. YOLO11 gibi ultra analitik modeller, güçlü omurgaları kullanarak tümör tespiti gibi görevler için uyarlanabilir.
Ultralytics HUB gibi platformları kullanarak, kendi projeleriniz için güçlü temel mimarileri kullanma sürecini kolaylaştırabilirsiniz. Bu platformlar, veri kümelerini yönetmeyi ve özel modelleri eğitmeyi basitleştirir.