YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Görüntü modellerinin geçmişi

Mostafa Ibrahim

5 dakikalık okuma

16 Temmuz 2024

Görsel modellerin tarihini, başarılarını, zorluklarını ve gelecekteki yönlerini keşfedin.

Bilgisayarlı görü nedir?

Bir kameranın yüzünüzü tanıdığı, ruh halinizi analiz ettiği ve tercihlerinize göre uyarlanmış ürünler önerdiği bir mağazaya girdiğinizi hayal edin; hepsi gerçek zamanlı olarak. Bu bilim kurgu değil, modern vizyon modelleri tarafından mümkün kılınan bir gerçeklik. Fortune Business Insight tarafından yayınlanan bir rapora göre, küresel bilgisayar görüşü pazar büyüklüğü 2023'te 20,31 milyar ABD doları olarak değerlendi ve 2024'te 25,41 milyar ABD dolarından 2032'ye kadar 175,72 milyar ABD dolarına yükselmesi bekleniyor ve bu da çeşitli sektörlerdeki hızlı gelişmeleri ve bu teknolojinin artan benimsenmesini yansıtıyor.

Bilgisayar görüşü alanı, bilgisayarların görüntülerdeki nesneleri algılamasını, tanımlamasını ve analiz etmesini sağlar. Diğer yapay zeka ile ilgili alanlara benzer şekilde, bilgisayar görüşü de son birkaç on yılda hızlı bir evrim geçirerek dikkate değer ilerlemeler kaydetmiştir. 

Bilgisayarlı görü'nün geçmişi oldukça kapsamlıdır. İlk yıllarında, bilgisayarlı görü modelleri basit şekilleri ve kenarları algılayabiliyordu ve genellikle geometrik desenleri tanıma veya açık ve koyu alanlar arasında ayrım yapma gibi temel görevlerle sınırlıydı. Ancak, günümüzün modelleri gerçek zamanlı nesne tespiti, yüz tanıma ve hatta yüz ifadelerinden duyguları olağanüstü doğruluk ve verimlilikle yorumlama gibi karmaşık görevleri gerçekleştirebilir. Bu dramatik ilerleme, hesaplama gücünde, algoritmik gelişmişlikte ve eğitim için çok miktarda verinin mevcudiyetinde kaydedilen inanılmaz adımları vurgulamaktadır.

Bu makalede, bilgisayar görüşünün evrimindeki temel kilometre taşlarını keşfedeceğiz. Erken başlangıçlarından yolculuğumuza çıkacak, Evrişimli Sinir Ağlarının (CNN'ler) dönüştürücü etkisine dalacak ve ardından gelen önemli gelişmeleri inceleyeceğiz.

Bilgisayar görüşünün ilk başlangıçları

Diğer yapay zeka alanlarında olduğu gibi, bilgisayar görüşünün erken gelişimi de temel araştırma ve teorik çalışmalarla başladı. Önemli bir kilometre taşı, Lawrence G. Roberts'ın 1960'ların başındaki "Üç Boyutlu Katıların Makine Algısı" tezinde belgelenen 3D nesne tanıma konusundaki öncü çalışmasıydı. Katkıları, alandaki gelecekteki gelişmelerin temelini attı.

İlk algoritmalar - kenar algılama

Erken dönem bilgisayar görüşü araştırmaları, kenar tespiti ve özellik çıkarımı gibi görüntü işleme tekniklerine odaklanmıştır. 1960'ların sonlarında geliştirilen Sobel operatörü gibi algoritmalar, görüntü yoğunluğunun gradyanını hesaplayarak kenarları tespit eden ilk algoritmalar arasındaydı.

Şekil 1. Sol tarafında orijinal nesneyi, sağ tarafında ise kenar tespiti yapılmış versiyonunu gösteren, kenar tespitini gösteren bir görsel.

Sobel ve Canny kenar dedektörleri gibi teknikler, nesneleri tanımak ve sahneleri anlamak için gerekli olan görüntülerdeki sınırları belirlemede önemli bir rol oynamıştır.

Makine öğrenimi ve bilgisayarlı görü

Desen tanıma

1970'lerde, örüntü tanıma, bilgisayarlı görünün önemli bir alanı olarak ortaya çıktı. Araştırmacılar, görüntülerdeki şekilleri, dokuları ve nesneleri tanımak için yöntemler geliştirdiler ve bu da daha karmaşık görme görevlerinin önünü açtı.

Şekil 2. Desen Tanıma.

Desen tanıma için ilk yöntemlerden biri, bir görüntünün en iyi eşleşmeyi bulmak için bir dizi şablonla karşılaştırıldığı şablon eşleştirmeyi içeriyordu. Bu yaklaşım, ölçek, döndürme ve gürültüdeki değişikliklere duyarlılığı nedeniyle sınırlıydı.

Şekil 3. Sağdaki resimde bulunan soldaki bir şablon.

Erken dönem bilgisayar görüşü sistemleri, zamanın sınırlı işlem gücüyle kısıtlanmıştı. 1960'lar ve 1970'lerdeki bilgisayarlar hantal, pahalı ve sınırlı işlem yeteneklerine sahipti.

Derin Öğrenme ile oyunu değiştirmek

Derin Öğrenme ve Evrişimli Sinir Ağları

Derin öğrenme ve Evrişimli Sinir Ağları (CNN'ler), bilgisayarlı görü alanında önemli bir anı işaret etti. Bu gelişmeler, bilgisayarların görsel verileri yorumlama ve analiz etme biçimini önemli ölçüde dönüştürdü ve daha önce imkansız olduğu düşünülen çok çeşitli uygulamaları mümkün kıldı.

CNN'ler nasıl çalışır?

Şekil 4. Evrişimsel Sinir Ağı (CNN) mimarisi.

  1. Evrişim Katmanları: CNN'ler, görüntüleri veya dizileri taramak için filtreler veya çekirdekler kullanarak yapılandırılmış ızgara benzeri verileri işlemek için tasarlanmış bir tür derin öğrenme modeli olan evrişim katmanlarını kullanır ve hiyerarşik desenleri otomatik olarak öğrenir. Bu filtreler, görüntü boyunca kayarak ve nokta çarpımlarını hesaplayarak kenarlar, dokular ve renkler gibi çeşitli özellikleri algılar. Her filtre, görüntüdeki belirli desenleri etkinleştirerek modelin hiyerarşik özellikleri öğrenmesini sağlar.
  2. Aktivasyon Fonksiyonları: Evrişimden sonra, derin öğrenmede popüler bir aktivasyon fonksiyonu olan ve pozitifse doğrudan girdiyi, aksi takdirde sıfırı veren ReLU (Düzeltilmiş Doğrusal Birim) gibi aktivasyon fonksiyonları, sinir ağlarının verilerdeki doğrusal olmayan ilişkileri verimli bir şekilde öğrenmesine yardımcı olur. Bu, ağın karmaşık örüntüleri ve temsilleri öğrenmesine yardımcı olur.
  3. Havuzlama Katmanları: Havuzlama katmanları, özellik haritasının boyutunu azaltan bir alt örnekleme işlemi sağlayarak, hesaplama maliyetini ve aşırı uyumu azaltırken en alakalı özellikleri çıkarmaya yardımcı olur.
  4. Tam Bağlantılı Katmanlar: CNN'nin son katmanları, evrişimsel ve havuzlama katmanları tarafından çıkarılan özellikleri yorumlayarak tahminlerde bulunan tam bağlantılı katmanlardır. Bu katmanlar, geleneksel sinir ağlarındakilere benzer.

CNN görüş modellerinin evrimi

Görü modellerinin yolculuğu, en dikkat çekici olanlardan bazılarını içeren kapsamlı olmuştur:

  • LeNet (1989): LeNet, öncelikle el yazısıyla yazılmış çeklerdeki rakamları tanımak için kullanılan en eski CNN mimarilerinden biriydi. Başarısı, görüntü işlemede derin öğrenmenin potansiyelini kanıtlayarak daha karmaşık CNN'lerin temelini attı.
  • AlexNet (2012): AlexNet, ImageNet yarışmasında mevcut modellerden önemli ölçüde daha iyi performans göstererek derin öğrenmenin gücünü sergiledi. Bu model, ReLU aktivasyonları, dropout ve veri artırma kullandı ve görüntü sınıflandırmasında yeni ölçütler belirleyerek CNN'lere olan ilgiyi yaygınlaştırdı.
  • VGGNet (2014): VGGNet, daha küçük evrişimsel filtreler (3x3) kullanarak, görüntü sınıflandırma görevlerinde etkileyici sonuçlar elde etti ve daha yüksek doğruluk elde etmede ağ derinliğinin önemini pekiştirdi.
  • ResNet (2015): ResNet, artık öğrenmeyi tanıtarak derin ağlardaki bozulma sorununu ele almıştır. Bu yenilik, çok daha derin ağların eğitilmesini sağlayarak çeşitli bilgisayarlı görü görevlerinde en üstün performansı sağlamıştır.
  • YOLO (You Only Look Once - Sadece Bir Kere Bakarsın): YOLO, nesne tespitini tek bir regresyon problemi olarak çerçeveleyerek, sınırlandırma kutularını ve sınıf olasılıklarını tam görüntülerden tek bir değerlendirmede doğrudan tahmin ederek devrim yarattı. Bu yaklaşım, otonom sürüş ve gözetim gibi anında işleme gerektiren uygulamalar için uygun hale getirerek, benzeri görülmemiş hız ve doğrulukla gerçek zamanlı nesne tespitini mümkün kıldı.

Bilgisayar görüşü uygulamaları

Sağlık Hizmetleri

Bilgisayarlı görünün kullanım alanları çok sayıdadır. Örneğin, Ultralytics YOLOv8 gibi görü modelleri, kanser ve diyabetik retinopati gibi hastalıkları tespit etmek için tıbbi görüntülemede kullanılmaktadır. X-ışınlarını, MR'ları ve BT taramalarını yüksek hassasiyetle analiz ederek anormallikleri erken tespit ederler. Bu erken teşhis yeteneği, zamanında müdahalelere ve iyileştirilmiş hasta sonuçlarına olanak tanır.

Şekil 5. Ultralytics YOLOv8 kullanılarak Beyin Tümörü Tespiti.

Çevrenin korunması

Bilgisayarlı görü modelleri, yaban hayatı yaşam alanlarından gelen görüntüleri ve videoları analiz ederek nesli tükenmekte olan türleri izlemeye ve korumaya yardımcı olur. Hayvan davranışını tanımlar ve izler, popülasyonu ve hareketleri hakkında veri sağlar. Bu teknoloji, kaplanlar ve filler gibi türleri korumak için koruma stratejilerini ve politika kararlarını bilgilendirir.

Görsel yapay zeka yardımıyla, orman yangınları ve ağaçsızlaşma gibi diğer çevresel tehditler de izlenebilir ve yerel yetkililerin hızlı müdahale süreleri sağlanır.

Şekil 6. Bir orman yangınının uydu görüntüsü.

Zorluklar ve gelecekteki yönelimler

Önemli başarılara imza atmış olsalar da, aşırı karmaşıklıkları ve geliştirilmelerinin zorlu doğası nedeniyle, görme modelleri devam eden araştırma ve gelecekteki gelişmeler gerektiren çok sayıda zorlukla karşı karşıyadır.

Yorumlanabilirlik ve açıklanabilirlik

Görüntü modelleri, özellikle derin öğrenme olanlar, genellikle sınırlı şeffaflığa sahip "kara kutular" olarak görülür. Bunun nedeni, bu tür modellerin inanılmaz derecede karmaşık olmasıdır. Yorumlanabilirlik eksikliği, özellikle örneğin sağlık hizmetleri gibi kritik uygulamalarda güveni ve hesap verebilirliği engeller.

Hesaplama gereksinimleri

Son teknoloji ürünü AI modellerini eğitmek ve dağıtmak önemli miktarda hesaplama kaynağı gerektirir. Bu, özellikle büyük miktarda görüntü ve video verisini işlemesi gereken görme modelleri için geçerlidir. Veri yoğun eğitim girdileri arasında yer alan yüksek çözünürlüklü görüntüler ve videolar, hesaplama yükünü artırır. Örneğin, tek bir HD görüntü birkaç megabayt depolama alanı kaplayabilir ve bu da eğitim sürecini kaynak yoğun ve zaman alıcı hale getirir.

Bu durum, etkili görüntü modelleri geliştirmek için gereken kapsamlı verileri ve karmaşık hesaplamaları işlemek üzere güçlü donanım ve optimize edilmiş bilgisayarlı görü algoritmaları gerektirir. Daha verimli mimariler, model sıkıştırma ve GPU'lar ve TPU'lar gibi donanım hızlandırıcıları üzerine yapılan araştırmalar, görüntü modellerinin geleceğini ilerletecek kilit alanlardır.

Bu iyileştirmeler, hesaplama gereksinimlerini azaltmayı ve işlem verimliliğini artırmayı amaçlamaktadır. Ayrıca, YOLOv8 gibi gelişmiş, önceden eğitilmiş modellerden yararlanmak, kapsamlı eğitim ihtiyacını önemli ölçüde azaltabilir, geliştirme sürecini kolaylaştırabilir ve verimliliği artırabilir.

Sürekli gelişen bir ortam

Günümüzde, görüntü işleme modellerinin uygulamaları, sağlık hizmetleri gibi tümör tespiti gibi alanlardan, trafik izleme gibi günlük kullanımlara kadar yaygınlaşmıştır. Bu gelişmiş modeller, daha önce hayal edilemeyen gelişmiş doğruluk, verimlilik ve yetenekler sağlayarak sayısız sektöre yenilik getirmiştir.

Teknoloji gelişmeye devam ettikçe, görme modellerinin hayatın ve endüstrinin çeşitli yönlerini yenileme ve iyileştirme potansiyeli sınırsızdır. Bu sürekli evrim, bilgisayarlı görü alanında sürekli araştırma ve geliştirmenin önemini vurgulamaktadır.

Vizyon yapay zekasının geleceğini merak ediyor musunuz? En son gelişmeler hakkında daha fazla bilgi için Ultralytics Belgeleri'ni inceleyin ve Ultralytics GitHub ve YOLOv8 GitHub'daki projelerine göz atın. Ek olarak, çeşitli sektörlerdeki yapay zeka uygulamalarına ilişkin içgörüler için Otonom Sürüşlü Otomobiller ve Üretim sayfalarındaki çözümler özellikle faydalı bilgiler sunmaktadır.

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı