Omurga
Omurgaların derin öğrenmedeki rolünü keşfedin, ResNet ve ViT gibi en iyi mimarileri keşfedin ve bunların gerçek dünyadaki yapay zeka uygulamalarını öğrenin.
Omurga, özellikle bilgisayarla görmede (CV) derin öğrenme modelinin temel bir bileşenidir. Birincil özellik çıkarma ağı olarak hizmet eder. Ana görevi, görüntü gibi ham girdi verilerini almak ve bunları nesne algılama, görüntü segmentasyonu veya sınıflandırma gibi sonraki görevler için kullanılabilecek bir dizi üst düzey özelliğe veya özellik haritasına dönüştürmektir. Omurgayı, sinir ağının (NN ) bir görüntüdeki kenarlar, dokular, şekiller ve nesneler gibi temel desenleri "görmeyi" ve anlamayı öğrenen kısmı olarak düşünebilirsiniz.
Omurgalar Nasıl Çalışır?
Omurga genellikle ImageNet gibi büyük ölçekli bir görüntü sınıflandırma veri kümesi üzerinde önceden eğitilmiş derin bir Evrişimsel Sinir Ağıdır (CNN). Bir tür transfer öğrenimi olan bu ön eğitim süreci, ağa genel görsel özelliklerden oluşan geniş bir kütüphaneyi tanımayı öğretir. Geliştiriciler yeni bir görev için bir model oluştururken sıfırdan başlamak yerine genellikle bu önceden eğitilmiş omurgaları kullanır. Bu yaklaşım, eğitim süresini ve ihtiyaç duyulan etiketli veri miktarını önemli ölçüde azaltırken model performansını da genellikle artırır. Omurga tarafından çıkarılan özellikler daha sonra ağın "boynuna" ve "kafasına" aktarılır, bunlar daha fazla işlem gerçekleştirir ve nihai çıktıyı oluşturur. Omurga seçimi genellikle doğruluk, model boyutu ve gerçek zamanlı performans elde etmek için çok önemli olan çıkarım gecikmesi arasında bir değiş tokuş içerir.
Yaygın Omurga Mimarileri
Omurgaların tasarımı yıllar içinde gelişti ve her yeni mimari verimlilik ve performansta iyileştirmeler sundu. En etkili omurga mimarilerinden bazıları şunlardır:
- Artık Ağlar (ResNet): Microsoft Research tarafından tanıtılan ResNet modelleri, ağın artık işlevleri öğrenmesini sağlamak için "atlama bağlantıları" kullanır. Bu yenilik, kaybolan gradyan sorunundan muzdarip olmadan çok daha derin ağları eğitmeyi mümkün kılmıştır.
- EfficientNet: Google AI tarafından geliştirilen bu model ailesi, ağ derinliğini, genişliğini ve çözünürlüğünü eşit şekilde dengelemek için bileşik bir ölçeklendirme yöntemi kullanır. Bu da hem son derece doğru hem de hesaplama açısından verimli modeller ortaya çıkarır.
- Görme Dönüştürücüsü (ViT): Başarılı Transformer mimarisini NLP 'den vizyona uyarlayan ViT'ler, bir görüntüyü bir dizi yama olarak ele alır ve küresel bağlamı yakalamak için öz dikkati kullanarak CNN'lerin yerel alıcı alanlarına kıyasla farklı bir yaklaşım sunar.
- CSPNet (Çapraz Aşamalı Kısmi Ağ): Orijinal makalesinde açıklanan bu mimari, bir ağ aşamasının başından ve sonundan özellik haritalarını entegre ederek öğrenmeyi geliştirir, bu da gradyan yayılımını geliştirir ve hesaplama darboğazlarını azaltır. Birçok Ultralytics YOLO modelinde önemli bir bileşendir.
Omurga vs. Baş ve Boyun
Tipik bir nesne algılama mimarisinde model üç ana bölümden oluşur:
- Omurga: Rolü, çeşitli ölçeklerde özellik haritaları oluşturarak giriş görüntüsünden özellik çıkarma işlemini gerçekleştirmektir.
- Boyun: Bu bileşen omurga ile baş arasında yer alır. Omurgadan gelen özellik haritalarını rafine eder ve toplar, genellikle daha zengin bir temsil oluşturmak için farklı katmanlardan gelen özellikleri birleştirir. Yaygın bir örnek Özellik Piramidi Ağıdır (FPN).
- Algılama Başlığı: Bu, boyundan rafine özellikleri alan ve gerçek algılama görevini yerine getiren ağın son kısmıdır. Görüntüdeki nesneler için sınırlayıcı kutuları, sınıf etiketlerini ve güven puanlarını tahmin eder.
Bu nedenle omurga, tespit modelinin geri kalanının üzerine inşa edildiği temeldir. YOLOv8 ve YOLO11 gibi modeller, çeşitli görevlerde son teknoloji performansları için gerekli olan yüksek kaliteli özellik çıkarımını sağlamak için güçlü omurgaları entegre eder. Mimari seçimlerin performansı nasıl etkilediğini görmek için farklı YOLO model karşılaştırmalarını inceleyebilirsiniz.
Gerçek Dünya Uygulamaları
Omurgalar, sayısız yapay zeka uygulamasının temel bileşenleridir:
- Otonom Sürüş: Sürücüsüz araçlardaki sistemler, kameralardan ve LiDAR sensörlerinden gelen girdileri işlemek için büyük ölçüde sağlam omurgalara (örneğin, ResNet veya EfficientNet varyantları) dayanır. Çıkarılan özellikler, Waymo gibi şirketler tarafından geliştirilen sistemlerde görüldüğü gibi, güvenli navigasyon ve karar verme için çok önemli olan araçların, yayaların, trafik ışıklarının ve şerit çizgilerinin algılanmasını ve sınıflandırılmasını sağlar.
- Tıbbi Görüntü Analizi: Sağlık hizmetleri yapay zeka çözümlerinde omurgalar X-ışınları, CT'ler veya MRI'lar gibi tıbbi taramaları analiz etmek için kullanılır. Örneğin, DenseNet gibi bir omurga, pnömoni belirtilerini tespit etmeye yardımcı olmak için bir göğüs röntgeninden veya potansiyel tümörleri tanımlamak için bir CT taramasından özellikler çıkarabilir(ilgili araştırma Radyoloji: AI). Bu da radyologlara teşhis ve tedavi planlamasında yardımcı olur. YOLO11 gibi ultra analitik modeller, güçlü omurgaları kullanarak tümör tespiti gibi görevler için uyarlanabilir.
Veri kümelerini yönetmeyi ve özel modelleri eğitmeyi basitleştiren Ultralytics HUB gibi platformları kullanarak kendi projeleriniz için güçlü omurgalar kullanma sürecini kolaylaştırabilirsiniz.