Görsel Yapay Zeka Tarihi: Kenar Algılamadan YOLOv8'e

Bilgisayarlı görü nedir?

Bir kameranın yüzünüzü tanıdığı, ruh halinizi analiz ettiği ve tercihlerinize göre uyarlanmış ürünler önerdiği bir mağazaya girdiğinizi hayal edin; hepsi gerçek zamanlı olarak. Bu bilim kurgu değil, modern vizyon modelleri tarafından mümkün kılınan bir gerçeklik. Fortune Business Insight tarafından yayınlanan bir rapora göre, küresel bilgisayar görüşü pazar büyüklüğü 2023'te 20,31 milyar ABD doları olarak değerlendi ve 2024'te 25,41 milyar ABD dolarından 2032'ye kadar 175,72 milyar ABD dolarına yükselmesi bekleniyor ve bu da çeşitli sektörlerdeki hızlı gelişmeleri ve bu teknolojinin artan benimsenmesini yansıtıyor.

Bilgisayarla görme alanı, bilgisayarların görüntülerdeki nesneleri detect etmesini, tanımlamasını ve analiz etmesini sağlar. Yapay zeka ile ilgili diğer alanlara benzer şekilde, bilgisayar görüşü de son birkaç on yılda hızlı bir evrim geçirmiş ve kayda değer ilerlemeler kaydetmiştir.

Bilgisayarlı görü'nün geçmişi oldukça kapsamlıdır. İlk yıllarında, bilgisayarlı görü modelleri basit şekilleri ve kenarları algılayabiliyordu ve genellikle geometrik desenleri tanıma veya açık ve koyu alanlar arasında ayrım yapma gibi temel görevlerle sınırlıydı. Ancak, günümüzün modelleri gerçek zamanlı nesne tespiti, yüz tanıma ve hatta yüz ifadelerinden duyguları olağanüstü doğruluk ve verimlilikle yorumlama gibi karmaşık görevleri gerçekleştirebilir. Bu dramatik ilerleme, hesaplama gücünde, algoritmik gelişmişlikte ve eğitim için çok miktarda verinin mevcudiyetinde kaydedilen inanılmaz adımları vurgulamaktadır.

Bu makalede, bilgisayar görüşünün evrimindeki temel kilometre taşlarını keşfedeceğiz. Erken başlangıçlarından yolculuğumuza çıkacak, Evrişimli Sinir Ağlarının (CNN'ler) dönüştürücü etkisine dalacak ve ardından gelen önemli gelişmeleri inceleyeceğiz.

Bilgisayar görüşünün ilk başlangıçları

Diğer yapay zeka alanlarında olduğu gibi, bilgisayar görüşünün erken gelişimi de temel araştırma ve teorik çalışmalarla başladı. Önemli bir kilometre taşı, Lawrence G. Roberts'ın 1960'ların başındaki "Üç Boyutlu Katıların Makine Algısı" tezinde belgelenen 3D nesne tanıma konusundaki öncü çalışmasıydı. Katkıları, alandaki gelecekteki gelişmelerin temelini attı.

İlk algoritmalar - kenar algılama

İlk bilgisayarla görme araştırmaları, kenar algılama ve özellik çıkarma gibi görüntü işleme tekniklerine odaklanmıştır. 1960'ların sonunda geliştirilen Sobel operatörü gibi algoritmalar, görüntü yoğunluğunun gradyanını hesaplayarak kenarları detect eden ilk algoritmalar arasındaydı.

‍

Şekil 1. Sol tarafında orijinal nesneyi, sağ tarafında ise kenar tespiti yapılmış versiyonunu gösteren, kenar tespitini gösteren bir görsel.

‍

Sobel ve Canny kenar dedektörleri gibi teknikler, nesneleri tanımak ve sahneleri anlamak için gerekli olan görüntülerdeki sınırları belirlemede önemli bir rol oynamıştır.

Makine öğrenimi ve bilgisayarlı görü

Desen tanıma

1970'lerde, örüntü tanıma, bilgisayarlı görünün önemli bir alanı olarak ortaya çıktı. Araştırmacılar, görüntülerdeki şekilleri, dokuları ve nesneleri tanımak için yöntemler geliştirdiler ve bu da daha karmaşık görme görevlerinin önünü açtı.

‍

Desen tanıma için ilk yöntemlerden biri, bir görüntünün en iyi eşleşmeyi bulmak için bir dizi şablonla karşılaştırıldığı şablon eşleştirmeyi içeriyordu. Bu yaklaşım, ölçek, döndürme ve gürültüdeki değişikliklere duyarlılığı nedeniyle sınırlıydı.

Şekil 3. Sağdaki resimde bulunan soldaki bir şablon.

‍

Erken dönem bilgisayar görüşü sistemleri, zamanın sınırlı işlem gücüyle kısıtlanmıştı. 1960'lar ve 1970'lerdeki bilgisayarlar hantal, pahalı ve sınırlı işlem yeteneklerine sahipti.

Derin Öğrenme ile oyunu değiştirmek

Derin Öğrenme ve Evrişimli Sinir Ağları

Derin öğrenme ve Evrişimli Sinir Ağları (CNN'ler), bilgisayarlı görü alanında önemli bir anı işaret etti. Bu gelişmeler, bilgisayarların görsel verileri yorumlama ve analiz etme biçimini önemli ölçüde dönüştürdü ve daha önce imkansız olduğu düşünülen çok çeşitli uygulamaları mümkün kıldı.

CNN'ler nasıl çalışır?

Şekil 4. Evrişimsel Sinir Ağı (CNN) mimarisi.

‍

Evrişimsel Katmanlar: CNN'ler, hiyerarşik desenleri otomatik olarak öğrenerek görüntüler veya diziler gibi yapılandırılmış ızgara benzeri verileri işlemek için tasarlanmış bir tür derin öğrenme modeli olan konvolüsyonel katmanları kullanır. filtreler veya çekirdekler kullanarak bir görüntüyü taramak için. Bu filtreler görüntü üzerinde kayarak ve nokta çarpımlarını hesaplayarak kenarlar, dokular ve renkler gibi çeşitli özellikleri detect eder. Her filtre görüntüdeki belirli kalıpları etkinleştirerek modelin hiyerarşik özellikleri öğrenmesini sağlar.
‍
Aktivasyon Fonksiyonları: Evrişimden sonra, derin öğrenmede popüler bir aktivasyon fonksiyonu olan ve pozitifse doğrudan girdiyi, aksi takdirde sıfırı veren ReLU (Düzeltilmiş Doğrusal Birim) gibi aktivasyon fonksiyonları, sinir ağlarının verilerdeki doğrusal olmayan ilişkileri verimli bir şekilde öğrenmesine yardımcı olur. Bu, ağın karmaşık örüntüleri ve temsilleri öğrenmesine yardımcı olur.
‍
Havuzlama Katmanları: Havuzlama katmanları, özellik haritasının boyutunu azaltan bir alt örnekleme işlemi sağlayarak, hesaplama maliyetini ve aşırı uyumu azaltırken en alakalı özellikleri çıkarmaya yardımcı olur.
‍
Tam Bağlantılı Katmanlar: CNN'nin son katmanları, evrişimsel ve havuzlama katmanları tarafından çıkarılan özellikleri yorumlayarak tahminlerde bulunan tam bağlantılı katmanlardır. Bu katmanlar, geleneksel sinir ağlarındakilere benzer.

‍CNN görüş modellerinin evrimi

‍Görü modellerinin yolculuğu, en dikkat çekici olanlardan bazılarını içeren kapsamlı olmuştur:

LeNet (1989): LeNet, öncelikle el yazısıyla yazılmış çeklerdeki rakamları tanımak için kullanılan en eski CNN mimarilerinden biriydi. Başarısı, görüntü işlemede derin öğrenmenin potansiyelini kanıtlayarak daha karmaşık CNN'lerin temelini attı.
‍
AlexNet (2012): AlexNet, ImageNet yarışmasında mevcut modellerden önemli ölçüde daha iyi performans göstererek derin öğrenmenin gücünü ortaya koymuştur. Bu model ReLU aktivasyonları, dropout ve veri artırımı kullanarak görüntü sınıflandırmada yeni ölçütler belirlemiş ve CNN'lere olan ilgiyi artırmıştır.
‍
VGGNet (2014): VGGNet, daha küçük evrişimsel filtreler (3x3) kullanarak, görüntü sınıflandırma görevlerinde etkileyici sonuçlar elde etti ve daha yüksek doğruluk elde etmede ağ derinliğinin önemini pekiştirdi.

ResNet (2015): ResNet, artık öğrenmeyi tanıtarak derin ağlardaki bozulma sorununu ele almıştır. Bu yenilik, çok daha derin ağların eğitilmesini sağlayarak çeşitli bilgisayarlı görü görevlerinde en üstün performansı sağlamıştır.
‍
YOLO (You Only Look Once): YOLO , nesne tespit ini tek bir regresyon problemi olarak çerçeveleyerek, sınırlayıcı kutuları ve sınıf olasılıklarını tek bir değerlendirmede tam görüntülerden doğrudan tahmin ederek devrim yarattı. Bu yaklaşım, benzeri görülmemiş bir hız ve doğrulukla gerçek zamanlı nesne tespitini mümkün kılarak otonom sürüş ve gözetim gibi anlık işlem gerektiren uygulamalar için uygun hale getirdi.

‍Bilgisayar görüşü uygulamaları

Sağlık Hizmetleri

‍Bilgisayarlagörmenin kullanım alanları sayısızdır. Örneğin, aşağıdaki gibi vizyon modelleri Ultralytics YOLOv8 kanser ve diyabetik retinopati gibi hastalıkları detect etmek için tıbbi görüntülemede kullanılır. X-ışınlarını, MRI'ları ve CT taramalarını yüksek hassasiyetle analiz ederek anormallikleri erkenden tespit ederler. Bu erken tespit özelliği, zamanında müdahalelere ve hasta sonuçlarının iyileştirilmesine olanak tanır.

Şekil 5. Kullanarak Beyin Tümörü Tespiti Ultralytics YOLOv8.

‍

Çevrenin korunması

Bilgisayarlı görüş modelleri, yaban hayatı habitatlarından gelen görüntüleri ve videoları analiz ederek nesli tükenmekte olan türlerin izlenmesine ve korunmasına yardımcı olur. Hayvan davranışlarını tespit ve track ederek nüfus ve hareketleri hakkında veri sağlarlar. Bu teknoloji, kaplanlar ve filler gibi türleri korumak için koruma stratejilerini ve politika kararlarını bilgilendirir.

Görsel yapay zeka yardımıyla, orman yangınları ve ağaçsızlaşma gibi diğer çevresel tehditler de izlenebilir ve yerel yetkililerin hızlı müdahale süreleri sağlanır.

Şekil 6. Bir orman yangınının uydu görüntüsü.

‍

Zorluklar ve gelecekteki yönelimler

Önemli başarılara imza atmış olsalar da, aşırı karmaşıklıkları ve geliştirilmelerinin zorlu doğası nedeniyle, görme modelleri devam eden araştırma ve gelecekteki gelişmeler gerektiren çok sayıda zorlukla karşı karşıyadır.

Yorumlanabilirlik ve açıklanabilirlik

Görüntü modelleri, özellikle derin öğrenme olanlar, genellikle sınırlı şeffaflığa sahip "kara kutular" olarak görülür. Bunun nedeni, bu tür modellerin inanılmaz derecede karmaşık olmasıdır. Yorumlanabilirlik eksikliği, özellikle örneğin sağlık hizmetleri gibi kritik uygulamalarda güveni ve hesap verebilirliği engeller.

Hesaplama gereksinimleri

Son teknoloji ürünü AI modellerini eğitmek ve dağıtmak önemli miktarda hesaplama kaynağı gerektirir. Bu, özellikle büyük miktarda görüntü ve video verisini işlemesi gereken görme modelleri için geçerlidir. Veri yoğun eğitim girdileri arasında yer alan yüksek çözünürlüklü görüntüler ve videolar, hesaplama yükünü artırır. Örneğin, tek bir HD görüntü birkaç megabayt depolama alanı kaplayabilir ve bu da eğitim sürecini kaynak yoğun ve zaman alıcı hale getirir.

Bu durum, etkili görüntü modelleri geliştirmek için gereken kapsamlı verileri ve karmaşık hesaplamaları işlemek üzere güçlü donanım ve optimize edilmiş bilgisayarlı görü algoritmaları gerektirir. Daha verimli mimariler, model sıkıştırma ve GPU'lar ve TPU'lar gibi donanım hızlandırıcıları üzerine yapılan araştırmalar, görüntü modellerinin geleceğini ilerletecek kilit alanlardır.

Bu iyileştirmeler, hesaplama taleplerini azaltmayı ve işlem verimliliğini artırmayı amaçlamaktadır. Ayrıca, önceden eğitilmiş gelişmiş modellerden yararlanarak YOLOv8 kapsamlı eğitim ihtiyacını önemli ölçüde azaltabilir, geliştirme sürecini kolaylaştırabilir ve verimliliği artırabilir.

Sürekli gelişen bir ortam

Günümüzde, görüntü işleme modellerinin uygulamaları, sağlık hizmetleri gibi tümör tespiti gibi alanlardan, trafik izleme gibi günlük kullanımlara kadar yaygınlaşmıştır. Bu gelişmiş modeller, daha önce hayal edilemeyen gelişmiş doğruluk, verimlilik ve yetenekler sağlayarak sayısız sektöre yenilik getirmiştir.

Teknoloji gelişmeye devam ettikçe, görme modellerinin hayatın ve endüstrinin çeşitli yönlerini yenileme ve iyileştirme potansiyeli sınırsızdır. Bu sürekli evrim, bilgisayarlı görü alanında sürekli araştırma ve geliştirmenin önemini vurgulamaktadır.

Görsel yapay zekanın geleceğini merak ediyor musunuz? En son gelişmeler hakkında daha fazla bilgi için Ultralytics Dokümanlarını inceleyin ve Ultralytics GitHub ve YOLOv8 GitHub'daki projelerine göz atın. Ayrıca, çeşitli endüstrilerdeki yapay zeka uygulamalarına ilişkin içgörüler için, Sürücüsüz Otomobiller ve Üretim çözüm sayfaları özellikle yararlı bilgiler sunar.

Görüntü modellerinin geçmişi

Bilgisayarlı görü nedir?

Bilgisayar görüşünün ilk başlangıçları

İlk algoritmalar - kenar algılama