Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Nesne algılamanın evrimi ve Ultralytics'in YOLO modelleri

Abirami Vina

4 dakika okuma

18 Ekim 2024

Nesne algılamanın gelişimine bir göz atarken bize katılın. YOLO (You Only Look Once) modellerinin son yıllarda nasıl geliştiğine odaklanacağız.

Görüntü işleme, makinelerin görüntüleri ve videoları insanlarının gerçek dünyayı algılamasına benzer şekilde görmeyi ve anlamayı öğretmeye odaklanan bir yapay zeka (AI) alt alanıdır. Nesneleri tanımak veya eylemleri tanımlamak insanlar için doğuştan gelen bir yetenek olsa da, bu görevler makineler söz konusu olduğunda belirli ve özel görüntü işleme teknikleri gerektirir. Örneğin, görüntü işlemede önemli bir görev, görüntüler veya videolar içindeki nesneleri tanımlamayı ve konumlandırmayı içeren nesne algılamadır

1960'lardan beri araştırmacılar bilgisayarların nesneleri nasıl detect geliştirmek için çalışıyorlar. Şablon eşleştirme gibi ilk yöntemler, eşleşmeleri bulmak için önceden tanımlanmış bir şablonu bir görüntü üzerinde kaydırmayı içeriyordu. Yenilikçi olsa da bu yaklaşımlar nesne boyutu, yönü ve ışıklandırmadaki değişikliklerle mücadele ediyordu. Bugün, aşağıdaki gibi gelişmiş modellerimiz var Ultralytics YOLO11 Tıkalı nesneler olarak bilinen küçük ve kısmen gizli nesneleri bile etkileyici bir doğrulukla detect edebilen

Bilgisayarlı görü gelişmeye devam ederken, bu teknolojilerin nasıl geliştiğine dönüp bakmak önemlidir. Bu makalede, nesne algılamanın evrimini inceleyecek ve YOLO (You Only Look Once) modellerinin dönüşümüne ışık tutacağız. Haydi başlayalım!

Bilgisayarlı görünün kökenleri

Nesne algılama konusuna girmeden önce, bilgisayarla görmenin nasıl başladığına bir göz atalım. Bilgisayarla görmenin kökenleri, bilim insanlarının beynin görsel bilgiyi nasıl işlediğini araştırmaya başladığı 1950'lerin sonları ve 1960'ların başlarına kadar uzanır. Araştırmacılar David Hubel ve Torsten Wiesel, kedilerle yaptıkları deneylerde beynin kenarlar ve çizgiler gibi basit desenlere tepki verdiğini keşfetti. Bu, özellik çıkarımının arkasındaki fikrin temelini oluşturdu - görsel sistemlerin daha karmaşık desenlere geçmeden önce görüntülerdeki kenarlar gibi temel özellikleri detect edip tanıdığı kavramı.

Şekil 1. Bir kedinin beyninin ışık çubuklarına nasıl tepki verdiğini öğrenmek, bilgisayarlı görmede özellik çıkarımının geliştirilmesine yardımcı oldu.

Aynı sıralarda, fiziksel görüntüleri dijital formatlara dönüştürebilen yeni bir teknoloji ortaya çıktı ve makinelerin görsel bilgileri nasıl işleyebileceğine olan ilgiyi artırdı. 1966'da Massachusetts Teknoloji Enstitüsü'nün (MIT) Yaz Görü Projesi işleri daha da ileriye taşıdı. Proje tam olarak başarılı olmasa da, görüntülerde ön planı arka plandan ayırabilen bir sistem oluşturmayı amaçladı. Görü AI topluluğundaki birçok kişi için bu proje, bilgisayarlı görmenin bilimsel bir alan olarak resmi başlangıcını işaret ediyor.

Nesne tespitinin tarihini anlamak

1990'ların sonlarında ve 2000'lerin başlarında bilgisayarla görme geliştikçe, nesne algılama yöntemleri şablon eşleştirme gibi temel tekniklerden daha gelişmiş yaklaşımlara doğru kaymıştır. Popüler yöntemlerden biri, yüz algılama gibi görevler için yaygın olarak kullanılan Haar Cascade idi. Bu yöntem, görüntüleri kayan bir pencere ile tarayarak, görüntünün her bölümünde kenarlar veya dokular gibi belirli özellikleri kontrol ederek ve ardından yüzler gibi nesneleridetect etmek için bu özellikleri birleştirerek çalışıyordu. Haar Cascade önceki yöntemlerden çok daha hızlıydı.

Şekil 2. Yüz Algılama için Haar Cascade Kullanımı.

Bunların yanı sıra, Yönlendirilmiş Gradyanların Histogramı (HOG) ve Destek Vektör Makineleri (SVM'ler) gibi yöntemler de tanıtıldı. HOG, ışık ve gölgelerin bir görüntünün küçük bölümlerinde nasıl değiştiğini analiz etmek için kayan pencere tekniğini kullanarak şekillerine göre nesneleri tanımlamaya yardımcı oldu. SVM'ler daha sonra nesnenin kimliğini belirlemek için bu özellikleri sınıflandırdı. Bu yöntemler doğruluğu artırdı, ancak yine de gerçek dünya ortamlarında zorlandı ve günümüzün tekniklerine kıyasla daha yavaştı.

Gerçek zamanlı nesne tespiti ihtiyacı

2010'larda, derin öğrenme ve Evrişimsel Sinir Ağları (CNN'ler)'nın yükselişi, nesne tespiti alanında büyük bir değişime yol açtı. CNN'ler, bilgisayarların büyük miktarda veriden önemli özellikleri otomatik olarak öğrenmesini mümkün kılarak tespiti çok daha doğru hale getirdi. 

R-CNN (Bölge Tabanlı Evrişimli Sinir Ağları) gibi ilk modeller, kesinlikte büyük bir gelişmeydi ve nesnelerin eski yöntemlere göre daha doğru bir şekilde tanımlanmasına yardımcı oldu. 

Ancak, bu modeller görüntüleri birden fazla aşamada işledikleri için yavaştı ve otonom sürüşlü arabalar veya video gözetimi gibi alanlarda gerçek zamanlı uygulamalar için pratik değillerdi.

İşleri hızlandırmaya odaklanılarak, daha verimli modeller geliştirildi. Fast R-CNN ve Faster R-CNN gibi modeller, ilgi alanlarının nasıl seçildiğini iyileştirerek ve algılama için gereken adım sayısını azaltarak yardımcı oldu. Bu, nesne tespitini hızlandırsa da, anında sonuçlara ihtiyaç duyan birçok gerçek dünya uygulaması için hala yeterince hızlı değildi. Gerçek zamanlı algılama için artan talep, hem hızı hem de doğruluğu dengeleyebilen daha hızlı ve daha verimli çözümlerin geliştirilmesini sağladı.

Şekil 3. R-CNN, Fast R-CNN ve Faster R-CNN'in hızlarının karşılaştırılması.

YOLO (You Only Look Once) modelleri: Önemli bir dönüm noktası

YOLO görüntülerde ve videolarda birden fazla nesnenin gerçek zamanlı olarak algılanmasını sağlayarak bilgisayarla görmeyi yeniden tanımlayan ve önceki algılama yöntemlerinden oldukça farklı kılan bir nesne algılama modelidir. Algılanan her nesneyi ayrı ayrı analiz etmek yerine, YOLO'nun mimarisi nesne algılamayı tek bir görev olarak ele alır ve CNN'leri kullanarak nesnelerin hem konumunu hem de sınıfını tek seferde tahmin eder. 

Model, bir görüntüyü bir ızgaraya bölerek çalışır ve her bölüm kendi alanındaki nesneleri tespit etmekten sorumludur. Her bölüm için birden fazla tahmin yapar ve daha az güvenilir sonuçları filtreleyerek yalnızca doğru olanları tutar. 

Şekil 4. YOLO 'nun Nasıl Çalıştığına Genel Bir Bakış.

YOLO 'nun bilgisayarla görme uygulamalarına girmesi, nesne algılamayı önceki modellere göre çok daha hızlı ve verimli hale getirdi. Hızı ve doğruluğu nedeniyle YOLO , üretim, sağlık ve robotik gibi sektörlerde gerçek zamanlı çözümler için hızla popüler bir seçim haline geldi.

Unutulmaması gereken bir diğer önemli nokta da, YOLO açık kaynak kodlu olduğu için, geliştiriciler ve araştırmacılar onu sürekli olarak geliştirebildi ve daha da gelişmiş sürümler ortaya çıktı.

YOLO 'dan YOLO11'e giden yol

YOLO modelleri zaman içinde sürekli olarak gelişti ve her versiyonda bir adım daha ileriye gitti. Daha iyi performansın yanı sıra, bu iyileştirmeler modellerin farklı teknik deneyim seviyelerine sahip kişiler için kullanımını kolaylaştırdı.

Örneğin, ne zaman Ultralytics YOLOv5 tanıtıldı, modellerin dağıtımı daha basit hale geldi PyTorchBöylece daha geniş bir kullanıcı kitlesinin gelişmiş yapay zeka ile çalışmasına olanak tanıdı. Doğruluk ve kullanılabilirliği bir araya getirerek, daha fazla insana kodlama uzmanı olmalarına gerek kalmadan nesne algılamayı uygulama olanağı sağladı.

Şekil 5. YOLO modellerinin evrimi.

Ultralytics YOLOv8 örnek segmentasyonu gibi görevler için destek ekleyerek ve modelleri daha esnek hale getirerek bu ilerlemeyi sürdürdü. YOLO 'yu hem temel hem de daha karmaşık uygulamalar için kullanmak daha kolay hale geldi ve çeşitli senaryolarda kullanışlı hale geldi.

Son model ile, Ultralytics YOLO11daha fazla optimizasyon yapılmıştır. Doğruluğu artırırken parametre sayısını azaltarak, gerçek zamanlı görevler için artık daha verimli. İster deneyimli bir geliştirici ister yapay zeka konusunda yeni olun, YOLO11 nesne algılama konusunda kolayca erişilebilen gelişmiş bir yaklaşım sunuyor.

YOLO11'i tanımak: Yeni özellikler ve iyileştirmeler

Ultralytics'in yıllık hibrit etkinliği YOLO Vision 2024'te (YV24) lanse edilen YOLO11, nesne algılama, örnek segmentasyonu, görüntü sınıflandırma ve poz tahmini gibi YOLOv8 ile aynı bilgisayarla görme görevlerini destekliyor. Böylece kullanıcılar iş akışlarını değiştirmeye gerek kalmadan bu yeni modele kolayca geçiş yapabilirler. Ayrıca, YOLO11'in yükseltilmiş mimarisi tahminleri daha da hassas hale getiriyor. Aslında, YOLO11m, COCO veri kümesinde YOLOv8m'den %22 daha az parametre ile daha yüksek bir ortalama ortalama hassasiyetmAP) elde eder.

YOLO11 ayrıca akıllı telefonlar ve diğer uç cihazlardan daha güçlü bulut sistemlerine kadar çeşitli platformlarda verimli bir şekilde çalışacak şekilde tasarlanmıştır. Bu esneklik, gerçek zamanlı uygulamalar için farklı donanım kurulumlarında sorunsuz performans sağlar. Bunun da ötesinde, YOLO11 daha hızlı ve daha verimlidir, hesaplama maliyetlerini azaltır ve çıkarım sürelerini hızlandırır. İster Ultralytics Python paketini ister kodsuz Ultralytics HUB'ı kullanıyor olun, YOLO11 'i mevcut iş akışlarınıza entegre etmek kolaydır.

YOLO modellerinin ve nesne algılamanın geleceği

Gelişmiş nesne algılamanın gerçek zamanlı uygulamalar ve uç yapay zeka üzerindeki etkisi şimdiden tüm sektörlerde hissediliyor. Petrol ve gaz, sağlık ve perakende gibi sektörler yapay zekaya giderek daha fazla bel bağladıkça, hızlı ve hassas nesne algılama talebi de artmaya devam ediyor. YOLO11 , sınırlı bilgi işlem gücüne sahip cihazlarda bile yüksek performanslı algılama sağlayarak bu talebe yanıt vermeyi amaçlıyor. 

Uç yapay zeka geliştikçe, YOLO11 gibi nesne algılama modellerinin hız ve doğruluğun kritik olduğu ortamlarda gerçek zamanlı karar verme için daha da önemli hale gelmesi muhtemeldir. Tasarım ve uyarlanabilirlikte devam eden iyileştirmelerle, nesne algılamanın geleceği çeşitli uygulamalarda daha da fazla yenilik getirecek gibi görünüyor.

Önemli çıkarımlar

Nesne algılama, basit yöntemlerden bugün gördüğümüz gelişmiş derin öğrenme tekniklerine kadar uzun bir yol kat etti. YOLO modelleri, farklı sektörlerde daha hızlı ve daha doğru gerçek zamanlı algılama sağlayarak bu ilerlemenin merkezinde yer almıştır. YOLO11 bu mirası geliştirerek verimliliği artırıyor, hesaplama maliyetlerini düşürüyor ve doğruluğu artırarak çeşitli gerçek zamanlı uygulamalar için güvenilir bir seçim haline getiriyor. Yapay zeka ve bilgisayarla görme alanında devam eden ilerlemelerle birlikte, nesne algılamanın geleceği parlak görünüyor ve hız, hassasiyet ve uyarlanabilirlik konularında daha da fazla iyileştirmeye yer var.

Yapay zekayı merak ediyor musunuz? Öğrenmeye devam etmek için topluluğumuzla bağlantıda kalın! GitHub depomuza göz atarak üretim ve sağlık hizmetleri gibi sektörlerde yenilikçi çözümler oluşturmak için yapay zekayı nasıl kullandığımızı keşfedin. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın