Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

YOLO12 açıklandı: Gerçek dünya uygulamaları ve kullanım alanları

Abirami Vina

5 dakikalık okuma

26 Şubat 2025

En son bilgisayarlı görü modeli YOLO12'yi keşfedin! Dikkat odaklı mimarisinin ve FlashAttention teknolojisinin çeşitli sektörlerdeki nesne algılama görevlerini nasıl geliştirdiğini öğrenin.

Bilgisayarla görme, makinelerin görüntüleri ve videoları anlamasına yardımcı olan bir yapay zeka (AI) dalıdır. İnanılmaz bir hızla ilerleyen bir alandır çünkü YZ araştırmacıları ve geliştiricileri sürekli olarak sınırları zorlamaktadır. YZ topluluğu her zaman modelleri daha hızlı, daha akıllı ve daha verimli hale getirmeyi hedeflemektedir. En son atılımlardan biri, 18 Şubat 2025'te piyasaya sürülen YOLO (You Only Look Once) model serisinin en yeni üyesi YOLO 'dir.

YOLO12, Buffalo Üniversitesi, SUNY (New York Eyalet Üniversitesi) ve Çin Bilimler Akademisi Üniversitesi'nden araştırmacılar tarafından geliştirildi. YOLO12, benzersiz yeni bir yaklaşımla, modelin her şeyi eşit şekilde işlemek yerine bir görüntünün en önemli kısımlarına odaklanmasını sağlayan dikkat mekanizmalarını sunar. 

Ayrıca, işlemeyi hızlandırırken daha az bellek kullanan bir teknik olan FlashAttention ve insanların doğal olarak merkezi nesnelere odaklanma şeklini taklit etmek için tasarlanmış bir alan dikkat mekanizmasına sahiptir.

Bu iyileştirmeler, YOLO12n'yi YOLOv10n'den %2,1 daha doğru ve YOLO12m'yi YOLO11m'den +%1,0 daha doğru hale getiriyor. Ancak, bunun bir bedeli var - YOLO12n, YOLOv10n'den %9 daha yavaş ve YOLO12m, YOLO11m'den %3 daha yavaş.

__wf_reserved_inherit
Şekil 1. Nesneleri detect etmek için kullanılan bir YOLO12 örneği.

Bu makalede, YOLO12'yi farklı kılan şeyin ne olduğunu, önceki sürümlerle nasıl karşılaştırıldığını ve nerelerde uygulanabileceğini keşfedeceğiz.

YOLO12'nin yayınlanmasına giden yol

YOLO model serisi, gerçek zamanlı nesne algılama için tasarlanmış bir bilgisayarla görme modelleri koleksiyonudur, yani görüntü ve videolardaki nesneleri hızlı bir şekilde tanımlayabilir ve bulabilirler. Zaman içinde her versiyon hız, doğruluk ve verimlilik açısından gelişmiştir.

Mesela, Ultralytics YOLOv52020'de piyasaya sürüldü, özel eğitim ve dağıtımı hızlı ve kolay olduğu için yaygın olarak kullanılmaya başlandı. Sonra görüşürüz, Ultralytics YOLOv8 örnek segmentasyonu ve nesne izleme gibi bilgisayarla görme görevleri için ek destek sunarak bunu geliştirdi. 

Daha yakın zamanda, Ultralytics YOLO11 hız ve doğruluk arasındaki dengeyi korurken gerçek zamanlı işlemeyi geliştirmeye odaklanmıştır. Örneğin, YOLO11m, YOLOv8m'den %22 daha az parametreye sahip olmasına rağmen, nesne algılama modellerini değerlendirmek için yaygın olarak kullanılan bir ölçüt olan COCO veri kümesinde daha iyi algılama performansı sunmuştur.

Bu gelişmeler üzerine inşa edilen YOLO12, görsel bilgileri işleme şeklinde bir değişimi tanıtıyor. Bir görüntünün tüm bölümlerine eşit davranmak yerine, en alakalı alanlara öncelik vererek algılama doğruluğunu artırır. Basitçe söylemek gerekirse, YOLO12, daha hassas olmayı hedeflerken önceki iyileştirmeler üzerine inşa edilmiştir.

YOLO12'nin temel özellikleri

YOLO12, gerçek zamanlı işlem hızlarını korurken bilgisayarlı görü görevlerini geliştiren çeşitli yenilikler sunar. İşte YOLO12'nin temel özelliklerine genel bir bakış:

  • Dikkat merkezli mimari: YOLO12, bir görüntünün her bölümünü eşit olarak ele almak yerine, en önemli alanlara odaklanır. Bu, doğruluğu artırır ve gereksiz işlemeyi azaltarak, kalabalık görüntülerde bile algılamayı daha keskin ve verimli hale getirir.
  • FlashAttention: YOLO12, daha az bellek kullanırken görüntü analizini hızlandırır. FlashAttention (bellek açısından verimli bir algoritma) ile veri işlemeyi optimize eder, donanım yükünü azaltır ve gerçek zamanlı görevleri daha sorunsuz ve güvenilir hale getirir.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12, modelin verileri nasıl işlediğini ve verilerden nasıl öğrendiğini geliştiren R-ELAN'ı kullanarak katmanlarını daha verimli bir şekilde düzenler. Bu, eğitimi daha kararlı, nesne tanımayı daha keskin ve bilgi işlem gereksinimlerini daha düşük hale getirir, böylece farklı ortamlarda verimli bir şekilde çalışır.

Bu özelliklerin gerçek hayatta nasıl çalıştığını anlamak için bir alışveriş merkezini düşünün. YOLO12 alışveriş yapanların track , saksı bitkileri veya promosyon tabelaları gibi mağaza dekorasyonlarının belirlenmesine ve yanlış yerleştirilmiş veya terk edilmiş ürünlerin tespit edilmesine yardımcı olabilir. 

Dikkat merkezli mimarisi, en önemli ayrıntılara odaklanmasına yardımcı olurken, FlashAttention sistemin aşırı yüklenmesini önleyerek her şeyi hızlı bir şekilde işlemesini sağlar. Bu, alışveriş merkezi operatörlerinin güvenliği artırmasını, mağaza düzenlerini organize etmesini ve genel alışveriş deneyimini iyileştirmesini kolaylaştırır.

__wf_reserved_inherit
Şekil 2. YOLO12 kullanılarak bir alışveriş merkezinde nesnelerin algılanması.

Ancak, YOLO12'nin dikkate alınması gereken bazı sınırlamaları da vardır:

  • Daha yavaş eğitim süreleri: Mimarisi nedeniyle YOLO12, YOLO11'e kıyasla daha fazla eğitim süresi gerektirir.
  • Dışa aktarma zorlukları: Bazı kullanıcılar, özellikle belirli dağıtım ortamlarına entegre ederken YOLO12 modellerini dışa aktarırken zorluklarla karşılaşabilir.

YOLO12'nin performans kıyaslamalarını anlama

YOLO12, her biri farklı ihtiyaçlar için optimize edilmiş birden fazla varyantta gelir. Daha küçük versiyonlar (nano ve küçük), hıza ve verimliliğe öncelik vererek mobil cihazlar ve uç bilgi işlem için idealdir. Orta ve büyük versiyonlar hız ve doğruluk arasında bir denge kurarken, YOLO12x (ekstra büyük) endüstriyel otomasyon, tıbbi görüntüleme ve gelişmiş gözetim sistemleri gibi yüksek hassasiyetli uygulamalar için tasarlanmıştır.

Bu varyasyonlarla YOLO12, model boyutuna bağlı olarak farklı performans seviyeleri sunar. Kıyaslama testleri, YOLO12'nin belirli varyantlarının doğruluk açısından YOLOv10 ve YOLO11 'den daha iyi performans gösterdiğini ve daha yüksek ortalama hassasiyetmAP) elde ettiğini göstermektedir. 

Ancak YOLO12m, YOLO12l ve YOLO12x gibi bazı modeller görüntüleri YOLO11'den daha yavaş işleyerek tespit doğruluğu ve hız arasında bir denge olduğunu göstermektedir. Buna rağmen YOLO12, YOLO11'den daha fazla parametre kullanmasına rağmen diğer birçok modelden daha az parametre gerektirerek verimli olmaya devam etmektedir. Bu da onu doğruluğun ham hızdan daha önemli olduğu uygulamalar için mükemmel bir seçim haline getirmektedir.

__wf_reserved_inherit
Şekil 3. Ultralytics YOLO11 ve YOLO12'nin karşılaştırılması.

Ultralytics Python paketi aracılığıyla YOLO12'yi kullanma

YOLO12, Ultralytics Python paketi tarafından desteklenir ve kullanımı kolaydır, bu da hem yeni başlayanlar hem de profesyoneller için erişilebilir olmasını sağlar. Kullanıcılar sadece birkaç satır kodla önceden eğitilmiş modelleri yükleyebilir, görüntüler ve videolar üzerinde çeşitli bilgisayarla görme görevlerini çalıştırabilir ve ayrıca YOLO12'yi özel veri kümeleri üzerinde eğitebilir. Ultralytics Python paketi, karmaşık kurulum adımlarına olan ihtiyacı ortadan kaldırarak süreci kolaylaştırır.

Örneğin, nesne algılama için YOLO12'yi kullanmak için izleyeceğiniz adımlar şunlardır:

  • Ultralytics paketini yükleyin: İlk olarak, YOLO12'yi verimli bir şekilde çalıştırmak için gereken araçları sağlayan Ultralytics Python paketini yükleyin. Bu, tüm bağımlılıkların doğru şekilde kurulmasını sağlar.
  • Önceden eğitilmiş bir YOLO12 modeli yükleyin: Göreviniz için gereken doğruluk ve hız düzeyine bağlı olarak uygun YOLO12 varyantını (nano, küçük, orta, büyük veya ekstra büyük) seçin.
  • Bir görüntü veya video sağlayın: Analiz etmek istediğiniz bir görüntü veya video dosyası girin. YOLO12, gerçek zamanlı algılama için canlı video akışlarını da işleyebilir.
  • Algılama sürecini çalıştırın: Model, görsel verileri tarar, nesneleri tanımlar ve etraflarına sınırlayıcı kutular yerleştirir. Algılanan her nesneyi, tahmin edilen sınıfı ve güvenilirlik puanı ile etiketler.
  • Algılama ayarlarını yapın: Algılama doğruluğunu ve performansını ince ayar yapmak için güvenilirlik eşikleri gibi parametreleri de değiştirebilirsiniz.
  • Çıktıyı kaydedin veya kullanın: Artık algılanan nesneleri içeren işlenmiş görüntü veya video, daha fazla analiz, otomasyon veya karar verme için bir uygulamaya kaydedilebilir veya entegre edilebilir.

Bu adımlar, YOLO12'yi gözetim ve perakende takibinden tıbbi görüntüleme ve otonom araçlara kadar çeşitli uygulamalar için kullanımı kolay hale getirir.

Pratik YOLO12 uygulamaları

YOLO12, nesne tespiti, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş nesne tespiti (OBB) desteği sayesinde çeşitli gerçek dünya uygulamalarında kullanılabilir. 

__wf_reserved_inherit
Şekil 4. YOLO12, nesne tespiti ve örnek segmentasyonu gibi görevleri destekler.

Ancak, daha önce tartıştığımız gibi, YOLO12 modelleri hıza göre doğruluğa öncelik verir, yani görüntüleri önceki sürümlere kıyasla işlemesi biraz daha uzun sürer. Bu denge, YOLO12'yi aşağıdaki gibi hassasiyetin gerçek zamanlı hızdan daha önemli olduğu uygulamalar için ideal hale getirir:

  • Tıbbi görüntüleme: YOLO12, X-ışınları ve MRI'lardaki tümörleri veya anormallikleri yüksek doğrulukla detect etmek için özel olarak eğitilebilir, bu da onu teşhis için hassas görüntü analizine ihtiyaç duyan doktorlar ve radyologlar için yararlı bir araç haline getirir.
  • Üretimde kalite kontrol: Üretim sürecinde ürün kusurlarını belirlemeye yardımcı olabilir, bu da yalnızca yüksek kaliteli ürünlerin piyasaya sürülmesini sağlarken atığı azaltır ve verimliliği artırır.
  • Adli analiz: Kolluk kuvvetleri, güvenlik kamerası görüntülerini analiz etmek ve kanıt toplamak için YOLO12'yi ince ayar yapabilir. Ceza soruşturmalarında, temel ayrıntıları belirlemek için hassasiyet hayati önem taşır.
  • Hassas tarım: Çiftçiler YOLO12'yi mahsul sağlığını analiz etmek, hastalık veya haşere istilalarını detect etmek ve toprak koşullarını izlemek için kullanabilir. Doğru değerlendirmeler, tarım stratejilerinin optimize edilmesine yardımcı olarak daha iyi verim ve kaynak yönetimi sağlar.

YOLO12'ye başlarken

YOLO12'yi çalıştırmadan önce, sisteminizin gerekli gereksinimleri karşıladığından emin olmak önemlidir.

Teknik olarak, YOLO12 herhangi bir özel GPU (Grafik İşlem Birimi) üzerinde çalışabilir. Varsayılan olarak FlashAttention gerektirmez, bu nedenle çoğu GPU sisteminde FlashAttention olmadan çalışabilir. Ancak, FlashAttention'ı etkinleştirmek, yavaşlamaları önlemeye, bellek kullanımını azaltmaya ve işlem verimliliğini artırmaya yardımcı olduğu için özellikle büyük veri kümeleri veya yüksek çözünürlüklü görüntülerle çalışırken yararlı olabilir. 

FlashAttention'ı kullanmak için şu serilerden birine ait bir NVIDIA GPU 'ya ihtiyacınız olacaktır: Turing (T4, Quadro RTX), Ampere (RTX 30 serisi, A30, A40, A100), Ada Lovelace (RTX 40 serisi) veya Hopper (H100, H200).

Kullanılabilirlik ve erişilebilirlik göz önünde bulundurularak, Ultralytics Python paketi henüz FlashAttention çıkarımını desteklemiyor, çünkü kurulumu teknik olarak oldukça karmaşık olabilir. YOLO12'yi kullanmaya başlama ve performansını optimize etme hakkında daha fazla bilgi edinmek için resmi Ultralytics belgelerine göz atın.

Önemli çıkarımlar

Bilgisayarlı görü ilerledikçe, modeller daha hassas ve verimli hale geliyor. YOLO12, dikkat merkezli işleme ve FlashAttention ile nesne tespiti, örnek segmentasyonu ve görüntü sınıflandırması gibi bilgisayarlı görü görevlerini geliştirerek doğruluğu artırırken bellek kullanımını optimize eder.

Aynı zamanda, bilgisayarla görme her zamankinden daha erişilebilirdir. Ultralytics Python paketi aracılığıyla kullanımı kolay olan YOLO12, hızdan ziyade doğruluğa odaklanmasıyla tıbbi görüntüleme, endüstriyel denetimler ve robotik gibi hassasiyetin önemli olduğu uygulamalar için çok uygundur.

Yapay zeka hakkında meraklı mısınız? GitHub depomuzu ziyaret edin ve topluluğumuzla etkileşim kurun. Çözüm sayfalarımızda kendi kendine giden arabalarda yapay zeka ve tarımda bilgisayarlı görü gibi sektörlerdeki yenilikleri keşfedin. Lisanslama seçeneklerimize göz atın ve Vizyon Yapay Zeka projelerinizi hayata geçirin. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın