YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Nesne tespiti ve Ultralytics'in YOLO modellerinin evrimi

Abirami Vina

4 dakika okuma

18 Ekim 2024

Nesne tespitinin evrimine geri dönerken bize katılın. Son yıllarda YOLO (You Only Look Once) modellerinin nasıl geliştiğine odaklanacağız.

Görüntü işleme, makinelerin görüntüleri ve videoları insanlarının gerçek dünyayı algılamasına benzer şekilde görmeyi ve anlamayı öğretmeye odaklanan bir yapay zeka (AI) alt alanıdır. Nesneleri tanımak veya eylemleri tanımlamak insanlar için doğuştan gelen bir yetenek olsa da, bu görevler makineler söz konusu olduğunda belirli ve özel görüntü işleme teknikleri gerektirir. Örneğin, görüntü işlemede önemli bir görev, görüntüler veya videolar içindeki nesneleri tanımlamayı ve konumlandırmayı içeren nesne algılamadır

1960'lardan beri araştırmacılar, bilgisayarların nesneleri nasıl algılayabileceğini geliştirmek için çalışıyorlar. Şablon eşleştirme gibi ilk yöntemler, eşleşmeleri bulmak için önceden tanımlanmış bir şablonu bir görüntü üzerinde kaydırmayı içeriyordu. Yenilikçi olmasına rağmen, bu yaklaşımlar nesne boyutu, yönü ve aydınlatmadaki değişikliklerle mücadele etti. Bugün, Ultralytics YOLO11 gibi etkileyici bir doğrulukla küçük ve kısmen gizlenmiş nesneleri bile algılayabilen gelişmiş modellere sahibiz.

Bilgisayar görüşü gelişmeye devam ederken, bu teknolojilerin nasıl geliştiğine bakmak önemlidir. Bu makalede, nesne algılama'nın evrimini keşfedecek ve YOLO (You Only Look Once) modellerinin dönüşümüne ışık tutacağız. Hadi başlayalım!

Bilgisayarlı görünün kökenleri

Nesne tespiti konusuna dalmadan önce, bilgisayarlı görünün nasıl başladığına bir göz atalım. Bilgisayarlı görünün kökenleri, bilim insanlarının beynin görsel bilgiyi nasıl işlediğini araştırmaya başladığı 1950'lerin sonlarına ve 1960'ların başlarına kadar uzanır. Kedilerle yapılan deneylerde, araştırmacılar David Hubel ve Torsten Wiesel, beynin kenarlar ve çizgiler gibi basit desenlere tepki verdiğini keşfettiler. Bu, özellik çıkarımı fikrinin temelini oluşturdu - görsel sistemlerin, daha karmaşık desenlere geçmeden önce görüntülerdeki kenarlar gibi temel özellikleri tespit edip tanıdığı kavramı.

Şekil 1. Bir kedinin beyninin ışık çubuklarına nasıl tepki verdiğini öğrenmek, bilgisayarlı görmede özellik çıkarımının geliştirilmesine yardımcı oldu.

Aynı sıralarda, fiziksel görüntüleri dijital formatlara dönüştürebilen yeni bir teknoloji ortaya çıktı ve makinelerin görsel bilgileri nasıl işleyebileceğine olan ilgiyi artırdı. 1966'da Massachusetts Teknoloji Enstitüsü'nün (MIT) Yaz Görü Projesi işleri daha da ileriye taşıdı. Proje tam olarak başarılı olmasa da, görüntülerde ön planı arka plandan ayırabilen bir sistem oluşturmayı amaçladı. Görü AI topluluğundaki birçok kişi için bu proje, bilgisayarlı görmenin bilimsel bir alan olarak resmi başlangıcını işaret ediyor.

Nesne tespitinin tarihini anlamak

Bilgisayar görüşü 1990'ların sonlarında ve 2000'lerin başlarında ilerledikçe, nesne algılama yöntemleri, şablon eşleme gibi temel tekniklerden daha gelişmiş yaklaşımlara kaydı. Popüler bir yöntem olan Haar Cascade, yüz algılama gibi görevler için yaygın olarak kullanıldı. Görüntüleri kayan bir pencereyle tarayarak, görüntünün her bölümündeki kenarlar veya dokular gibi belirli özellikleri kontrol ederek ve ardından yüzler gibi nesneleri algılamak için bu özellikleri birleştirerek çalıştı. Haar Cascade, önceki yöntemlerden çok daha hızlıydı.

Şekil 2. Yüz Algılama için Haar Cascade Kullanımı.

Bunların yanı sıra, Yönlendirilmiş Gradyanların Histogramı (HOG) ve Destek Vektör Makineleri (SVM'ler) gibi yöntemler de tanıtıldı. HOG, ışık ve gölgelerin bir görüntünün küçük bölümlerinde nasıl değiştiğini analiz etmek için kayan pencere tekniğini kullanarak şekillerine göre nesneleri tanımlamaya yardımcı oldu. SVM'ler daha sonra nesnenin kimliğini belirlemek için bu özellikleri sınıflandırdı. Bu yöntemler doğruluğu artırdı, ancak yine de gerçek dünya ortamlarında zorlandı ve günümüzün tekniklerine kıyasla daha yavaştı.

Gerçek zamanlı nesne tespiti ihtiyacı

2010'larda, derin öğrenme ve Evrişimsel Sinir Ağları (CNN'ler)'nın yükselişi, nesne tespiti alanında büyük bir değişime yol açtı. CNN'ler, bilgisayarların büyük miktarda veriden önemli özellikleri otomatik olarak öğrenmesini mümkün kılarak tespiti çok daha doğru hale getirdi. 

R-CNN (Bölge Tabanlı Evrişimli Sinir Ağları) gibi ilk modeller, kesinlikte büyük bir gelişmeydi ve nesnelerin eski yöntemlere göre daha doğru bir şekilde tanımlanmasına yardımcı oldu. 

Ancak, bu modeller görüntüleri birden fazla aşamada işledikleri için yavaştı ve otonom sürüşlü arabalar veya video gözetimi gibi alanlarda gerçek zamanlı uygulamalar için pratik değillerdi.

İşleri hızlandırmaya odaklanılarak, daha verimli modeller geliştirildi. Fast R-CNN ve Faster R-CNN gibi modeller, ilgi alanlarının nasıl seçildiğini iyileştirerek ve algılama için gereken adım sayısını azaltarak yardımcı oldu. Bu, nesne tespitini hızlandırsa da, anında sonuçlara ihtiyaç duyan birçok gerçek dünya uygulaması için hala yeterince hızlı değildi. Gerçek zamanlı algılama için artan talep, hem hızı hem de doğruluğu dengeleyebilen daha hızlı ve daha verimli çözümlerin geliştirilmesini sağladı.

Şekil 3. R-CNN, Fast R-CNN ve Faster R-CNN'in hızlarının karşılaştırılması.

YOLO (You Only Look Once) modelleri: Önemli bir dönüm noktası

YOLO, görüntülerde ve videolarda birden çok nesnenin gerçek zamanlı olarak algılanmasını sağlayarak bilgisayar görüşünü yeniden tanımlayan bir nesne algılama modelidir ve bu da onu önceki algılama yöntemlerinden oldukça benzersiz kılar. YOLO'nun mimarisi, algılanan her nesneyi ayrı ayrı analiz etmek yerine, nesne algılamayı tek bir görev olarak ele alır ve CNN'ler kullanarak nesnelerin hem konumunu hem de sınıfını tek seferde tahmin eder. 

Model, bir görüntüyü bir ızgaraya bölerek çalışır ve her bölüm kendi alanındaki nesneleri tespit etmekten sorumludur. Her bölüm için birden fazla tahmin yapar ve daha az güvenilir sonuçları filtreleyerek yalnızca doğru olanları tutar. 

Şekil 4. YOLO'nun Nasıl Çalıştığına Dair Genel Bakış.

YOLO'nun bilgisayarlı görü uygulamalarına tanıtılması, nesne tespitini önceki modellere göre çok daha hızlı ve verimli hale getirdi. Hızı ve doğruluğu nedeniyle YOLO, üretim, sağlık ve robotik gibi sektörlerdeki gerçek zamanlı çözümler için hızla popüler bir seçim haline geldi.

Belirtilmesi gereken bir diğer önemli nokta da YOLO açık kaynaklı olduğundan, geliştiricilerin ve araştırmacıların onu sürekli olarak geliştirebilmesi ve daha da gelişmiş sürümlere yol açabilmesidir.

YOLO'dan YOLO11'e giden yol

YOLO modelleri, her sürümün geliştirmeleri üzerine inşa edilerek zaman içinde sürekli olarak gelişti. Daha iyi performansın yanı sıra, bu geliştirmeler modellerin farklı teknik deneyim seviyelerine sahip kişiler için kullanımını kolaylaştırdı.

Örneğin, Ultralytics YOLOv5 tanıtıldığında, model dağıtımı PyTorch ile daha basit hale geldi ve daha geniş bir kullanıcı yelpazesinin gelişmiş yapay zeka ile çalışmasına olanak sağladı. Doğruluğu ve kullanılabilirliği bir araya getirerek, daha fazla insanın kodlama uzmanı olmalarına gerek kalmadan nesne tespiti uygulayabilmelerini sağladı.

Şekil 5. YOLO modellerinin evrimi.

Ultralytics YOLOv8 , örnek segmentasyonu gibi görevler için destek ekleyerek ve modelleri daha esnek hale getirerek bu ilerlemeyi sürdürdü. YOLO'yu hem temel hem de daha karmaşık uygulamalar için kullanmak kolaylaştı ve bu da onu çeşitli senaryolarda faydalı hale getirdi.

En son model Ultralytics YOLO11 ile daha fazla optimizasyon yapıldı. Doğruluğu artırırken parametre sayısını azaltarak, artık gerçek zamanlı görevler için daha verimli. İster deneyimli bir geliştirici olun ister yapay zeka konusunda yeni olun, YOLO11 nesne tespiti için kolayca erişilebilen gelişmiş bir yaklaşım sunar.

YOLO11'i Tanıyalım: Yeni özellikler ve iyileştirmeler

Ultralytics'in yıllık hibrit etkinliği olan YOLO Vision 2024'te (YV24) lanse edilen YOLO11, nesne algılama, örnek segmentasyonu, görüntü sınıflandırması ve poz tahmini gibi YOLOv8 ile aynı bilgisayarlı görü görevlerini destekler. Böylece kullanıcılar, iş akışlarını ayarlamalarına gerek kalmadan bu yeni modele kolayca geçebilirler. Ek olarak, YOLO11'in yükseltilmiş mimarisi tahminleri daha da hassas hale getirir. Aslında, YOLO11m, COCO veri kümesinde YOLOv8m'den %22 daha az parametreyle daha yüksek bir ortalama hassasiyet (mAP) elde ediyor.

YOLO11 ayrıca akıllı telefonlardan ve diğer uç cihazlardan daha güçlü bulut sistemlerine kadar çeşitli platformlarda verimli bir şekilde çalışacak şekilde üretilmiştir. Bu esneklik, gerçek zamanlı uygulamalar için farklı donanım kurulumlarında sorunsuz performans sağlar. Buna ek olarak, YOLO11 daha hızlı ve daha verimlidir, böylece hesaplama maliyetlerini düşürür ve çıkarım sürelerini hızlandırır. İster Ultralytics Python paketini ister kod gerektirmeyen Ultralytics HUB'ı kullanıyor olun, YOLO11'i mevcut iş akışlarınıza entegre etmek kolaydır.

YOLO modellerinin ve nesne tespitinin geleceği

Gelişmiş nesne algılamanın gerçek zamanlı uygulamalar ve uç yapay zeka üzerindeki etkisi şimdiden çeşitli sektörlerde hissediliyor. Petrol ve gaz, sağlık ve perakende gibi sektörler giderek daha fazla yapay zekaya güvenirken, hızlı ve hassas nesne algılamaya olan talep artmaya devam ediyor. YOLO11, sınırlı işlem gücüne sahip cihazlarda bile yüksek performanslı algılama sağlayarak bu talebi karşılamayı amaçlamaktadır. 

Uç AI büyüdükçe, YOLO11 gibi nesne algılama modellerinin hız ve doğruluğun kritik olduğu ortamlarda gerçek zamanlı karar verme için daha da önemli hale gelmesi muhtemeldir. Tasarım ve uyarlanabilirlikteki sürekli iyileştirmelerle, nesne algılamanın geleceği, çeşitli uygulamalarda daha da fazla yenilik getirmeye hazırlanıyor.

Önemli çıkarımlar

Nesne tespiti, basit yöntemlerden günümüzde gördüğümüz gelişmiş derin öğrenme tekniklerine kadar uzun bir yol katetti. YOLO modelleri, farklı sektörlerde daha hızlı ve daha doğru gerçek zamanlı tespit sağlayarak bu ilerlemenin kalbinde yer almıştır. YOLO11, verimliliği artırarak, hesaplama maliyetlerini düşürerek ve doğruluğu artırarak bu mirası sürdürüyor ve çeşitli gerçek zamanlı uygulamalar için güvenilir bir seçim haline geliyor. Yapay zeka ve bilgisayarlı görüdeki devam eden gelişmelerle, nesne tespitinin geleceği parlak görünüyor ve hız, hassasiyet ve uyarlanabilirlik açısından daha da fazla iyileştirme için yer var.

Yapay zekayı merak ediyor musunuz? Öğrenmeye devam etmek için topluluğumuzla bağlantıda kalın! GitHub depomuza göz atarak üretim ve sağlık hizmetleri gibi sektörlerde yenilikçi çözümler oluşturmak için yapay zekayı nasıl kullandığımızı keşfedin. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı