"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
En son bilgisayarlı görü modeli YOLO12'yi keşfedin! Dikkat odaklı mimarisinin ve FlashAttention teknolojisinin çeşitli sektörlerdeki nesne algılama görevlerini nasıl geliştirdiğini öğrenin.
Bilgisayarlı görü, makinelerin görüntüleri ve videoları anlamasına yardımcı olan bir yapay zeka (AI) dalıdır. Yapay zeka araştırmacıları ve geliştiricileri sürekli olarak sınırları zorladığı için inanılmaz bir hızla ilerleyen bir alandır. Yapay zeka topluluğu her zaman modelleri daha hızlı, daha akıllı ve daha verimli hale getirmeyi hedefliyor. En son atılımlardan biri, 18 Şubat 2025'te yayınlanan YOLO (You Only Look Once) model serisinin en yeni üyesi olan YOLO12'dir.
YOLO12, Buffalo Üniversitesi, SUNY (New York Eyalet Üniversitesi) ve Çin Bilimler Akademisi Üniversitesi'nden araştırmacılar tarafından geliştirildi. YOLO12, benzersiz yeni bir yaklaşımla, modelin her şeyi eşit şekilde işlemek yerine bir görüntünün en önemli kısımlarına odaklanmasını sağlayan dikkat mekanizmalarını sunar.
Ayrıca, işlemeyi hızlandırırken daha az bellek kullanan bir teknik olan FlashAttention ve insanların doğal olarak merkezi nesnelere odaklanma şeklini taklit etmek için tasarlanmış bir alan dikkat mekanizmasına sahiptir.
Bu iyileştirmeler, YOLO12n'yi YOLOv10n'den %2,1 daha doğru ve YOLO12m'yi YOLO11m'den +%1,0 daha doğru hale getiriyor. Ancak, bunun bir bedeli var - YOLO12n, YOLOv10n'den %9 daha yavaş ve YOLO12m, YOLO11m'den %3 daha yavaş.
Şekil 1. YOLO12'nin nesneleri tespit etmek için kullanımına bir örnek.
Bu makalede, YOLO12'yi farklı kılan şeyin ne olduğunu, önceki sürümlerle nasıl karşılaştırıldığını ve nerelerde uygulanabileceğini keşfedeceğiz.
YOLO12'nin yayınlanmasına giden yol
YOLO model serisi, gerçek zamanlı nesne algılama için tasarlanmış bir bilgisayarlı görü modelleri koleksiyonudur, yani görüntü ve videolardaki nesneleri hızlı bir şekilde tanımlayabilir ve konumlandırabilirler. Zamanla, her sürüm hız, doğruluk ve verimlilik açısından gelişti.
Örneğin, 2020'de piyasaya sürülen Ultralytics YOLOv5, hızlı ve özel olarak eğitilmesi ve dağıtılması kolay olduğu için yaygın olarak kullanıldı. Daha sonra, Ultralytics YOLOv8, örnek segmentasyonu ve nesne takibi gibi bilgisayarlı görü görevleri için ek destek sunarak bunu geliştirdi.
Daha yakın zamanda, Ultralytics YOLO11, hız ve doğruluk arasında bir denge kurarken gerçek zamanlı işlemeyi iyileştirmeye odaklandı. Örneğin, YOLO11m, YOLOv8m'den %22 daha az parametreye sahipti, ancak yine de nesne algılama modellerini değerlendirmek için yaygın olarak kullanılan bir ölçüt olan COCO veri kümesinde daha iyi algılama performansı sağladı.
Bu gelişmeler üzerine inşa edilen YOLO12, görsel bilgileri işleme şeklinde bir değişimi tanıtıyor. Bir görüntünün tüm bölümlerine eşit davranmak yerine, en alakalı alanlara öncelik vererek algılama doğruluğunu artırır. Basitçe söylemek gerekirse, YOLO12, daha hassas olmayı hedeflerken önceki iyileştirmeler üzerine inşa edilmiştir.
YOLO12'nin temel özellikleri
YOLO12, gerçek zamanlı işlem hızlarını korurken bilgisayarlı görü görevlerini geliştiren çeşitli yenilikler sunar. İşte YOLO12'nin temel özelliklerine genel bir bakış:
Dikkat merkezli mimari: YOLO12, bir görüntünün her bölümünü eşit olarak ele almak yerine, en önemli alanlara odaklanır. Bu, doğruluğu artırır ve gereksiz işlemeyi azaltarak, kalabalık görüntülerde bile algılamayı daha keskin ve verimli hale getirir.
FlashAttention: YOLO12, daha az bellek kullanırken görüntü analizini hızlandırır. FlashAttention (bellek açısından verimli bir algoritma) ile veri işlemeyi optimize eder, donanım yükünü azaltır ve gerçek zamanlı görevleri daha sorunsuz ve güvenilir hale getirir.
Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12, modelin verileri nasıl işlediğini ve verilerden nasıl öğrendiğini geliştiren R-ELAN'ı kullanarak katmanlarını daha verimli bir şekilde düzenler. Bu, eğitimi daha kararlı, nesne tanımayı daha keskin ve bilgi işlem gereksinimlerini daha düşük hale getirir, böylece farklı ortamlarda verimli bir şekilde çalışır.
Bu özelliklerin gerçek hayatta nasıl çalıştığını anlamak için bir alışveriş merkezini düşünün. YOLO12, alışveriş yapanları izlemeye, saksı bitkileri veya tanıtım işaretleri gibi mağaza dekorasyonlarını belirlemeye ve yanlış yerleştirilmiş veya terk edilmiş eşyaları tespit etmeye yardımcı olabilir.
Dikkat merkezli mimarisi, en önemli ayrıntılara odaklanmasına yardımcı olurken, FlashAttention sistemin aşırı yüklenmesini önleyerek her şeyi hızlı bir şekilde işlemesini sağlar. Bu, alışveriş merkezi operatörlerinin güvenliği artırmasını, mağaza düzenlerini organize etmesini ve genel alışveriş deneyimini iyileştirmesini kolaylaştırır.
Şekil 2. YOLO12 kullanılarak bir alışveriş merkezinde nesnelerin algılanması.
Ancak, YOLO12'nin dikkate alınması gereken bazı sınırlamaları da vardır:
Daha yavaş eğitim süreleri: Mimarisi nedeniyle YOLO12, YOLO11'e kıyasla daha fazla eğitim süresi gerektirir.
Dışa aktarma zorlukları: Bazı kullanıcılar, özellikle belirli dağıtım ortamlarına entegre ederken YOLO12 modellerini dışa aktarırken zorluklarla karşılaşabilir.
YOLO12'nin performans kıyaslamalarını anlama
YOLO12, her biri farklı ihtiyaçlar için optimize edilmiş birden fazla varyantta gelir. Daha küçük versiyonlar (nano ve küçük), hıza ve verimliliğe öncelik vererek mobil cihazlar ve uç bilgi işlem için idealdir. Orta ve büyük versiyonlar hız ve doğruluk arasında bir denge kurarken, YOLO12x (ekstra büyük) endüstriyel otomasyon, tıbbi görüntüleme ve gelişmiş gözetim sistemleri gibi yüksek hassasiyetli uygulamalar için tasarlanmıştır.
Bu varyasyonlarla YOLO12, model boyutuna bağlı olarak farklı performans seviyeleri sunar. Kıyaslama testleri, YOLO12'nin belirli varyantlarının doğruluk açısından YOLOv10 ve YOLO11'den daha iyi performans gösterdiğini ve daha yüksek ortalama hassasiyet (mAP) elde ettiğini göstermektedir.
Ancak, YOLO12m, YOLO12l ve YOLO12x gibi bazı modeller, YOLO11'den daha yavaş görüntü işler ve algılama doğruluğu ve hız arasında bir denge olduğunu gösterir. Buna rağmen, YOLO12 verimliliğini korur ve diğer birçok modelden daha az parametre gerektirir, ancak yine de YOLO11'den daha fazla kullanır. Bu, doğruluğun ham hızdan daha önemli olduğu uygulamalar için harika bir seçimdir.
Şekil 3. Ultralytics YOLO11 ve YOLO12'nin karşılaştırılması.
Ultralytics Python paketi aracılığıyla YOLO12'yi kullanma
YOLO12, Ultralytics Python paketi tarafından desteklenir ve kullanımı kolaydır, bu da onu hem yeni başlayanlar hem de profesyoneller için erişilebilir kılar. Sadece birkaç satır kodla, kullanıcılar önceden eğitilmiş modelleri yükleyebilir, görüntüler ve videolar üzerinde çeşitli bilgisayarlı görü görevlerini çalıştırabilir ve ayrıca özel veri kümeleri üzerinde YOLO12'yi eğitebilir. Ultralytics Python paketi, karmaşık kurulum adımlarına olan ihtiyacı ortadan kaldırarak süreci kolaylaştırır.
Ultralytics paketini yükleyin: Öncelikle, YOLO12'yi verimli bir şekilde çalıştırmak için gereken araçları sağlayan Ultralytics Python paketini yükleyin. Bu, tüm bağımlılıkların doğru şekilde ayarlanmasını sağlar.
Önceden eğitilmiş bir YOLO12 modeli yükleyin: Göreviniz için gereken doğruluk ve hız düzeyine bağlı olarak uygun YOLO12 varyantını (nano, küçük, orta, büyük veya ekstra büyük) seçin.
Bir görüntü veya video sağlayın: Analiz etmek istediğiniz bir görüntü veya video dosyası girin. YOLO12, gerçek zamanlı algılama için canlı video akışlarını da işleyebilir.
Algılama sürecini çalıştırın: Model, görsel verileri tarar, nesneleri tanımlar ve etraflarına sınırlayıcı kutular yerleştirir. Algılanan her nesneyi, tahmin edilen sınıfı ve güvenilirlik puanı ile etiketler.
Algılama ayarlarını yapın: Algılama doğruluğunu ve performansını ince ayar yapmak için güvenilirlik eşikleri gibi parametreleri de değiştirebilirsiniz.
Çıktıyı kaydedin veya kullanın: Artık algılanan nesneleri içeren işlenmiş görüntü veya video, daha fazla analiz, otomasyon veya karar verme için bir uygulamaya kaydedilebilir veya entegre edilebilir.
Bu adımlar, YOLO12'yi gözetim ve perakende takibinden tıbbi görüntüleme ve otonom araçlara kadar çeşitli uygulamalar için kullanımı kolay hale getirir.
Pratik YOLO12 uygulamaları
YOLO12, nesne tespiti, örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş nesne tespiti (OBB) desteği sayesinde çeşitli gerçek dünya uygulamalarında kullanılabilir.
Şekil 4. YOLO12, nesne tespiti ve örnek segmentasyonu gibi görevleri destekler.
Ancak, daha önce tartıştığımız gibi, YOLO12 modelleri hıza göre doğruluğa öncelik verir, yani görüntüleri önceki sürümlere kıyasla işlemesi biraz daha uzun sürer. Bu denge, YOLO12'yi aşağıdaki gibi hassasiyetin gerçek zamanlı hızdan daha önemli olduğu uygulamalar için ideal hale getirir:
Tıbbi görüntüleme: YOLO12, tümörleri veya anormallikleri X-ışınlarında ve MR'larda yüksek doğrulukla tespit etmek için özel olarak eğitilebilir, bu da onu tanı için hassas görüntü analizine ihtiyaç duyan doktorlar ve radyologlar için kullanışlı bir araç haline getirir.
Üretimde kalite kontrol: Üretim sürecinde ürün kusurlarını belirlemeye yardımcı olabilir, bu da yalnızca yüksek kaliteli ürünlerin piyasaya sürülmesini sağlarken atığı azaltır ve verimliliği artırır.
Adli analiz: Kolluk kuvvetleri, güvenlik kamerası görüntülerini analiz etmek ve kanıt toplamak için YOLO12'yi ince ayar yapabilir. Ceza soruşturmalarında, temel ayrıntıları belirlemek için hassasiyet hayati önem taşır.
Hassas tarım: Çiftçiler, ürün sağlığını analiz etmek, hastalık veya zararlı böcek istilalarını tespit etmek ve toprak koşullarını izlemek için YOLO12'yi kullanabilir. Doğru değerlendirmeler, daha iyi verim ve kaynak yönetimi sağlayarak çiftçilik stratejilerini optimize etmeye yardımcı olur.
YOLO12'ye başlarken
YOLO12'yi çalıştırmadan önce, sisteminizin gerekli gereksinimleri karşıladığından emin olmak önemlidir.
Teknik olarak, YOLO12 herhangi bir özel GPU (Grafik İşleme Birimi) üzerinde çalışabilir. Varsayılan olarak, FlashAttention gerektirmez, bu nedenle çoğu GPU sisteminde onsuz çalışabilir. Bununla birlikte, FlashAttention'ı etkinleştirmek, yavaşlamaları önlemeye, bellek kullanımını azaltmaya ve işlem verimliliğini artırmaya yardımcı olduğundan, özellikle büyük veri kümeleri veya yüksek çözünürlüklü görüntülerle çalışırken faydalı olabilir.
FlashAttention'ı kullanmak için, aşağıdaki serilerden birine ait bir NVIDIA GPU'ya ihtiyacınız olacaktır: Turing (T4, Quadro RTX), Ampere (RTX 30 serisi, A30, A40, A100), Ada Lovelace (RTX 40 serisi) veya Hopper (H100, H200).
Kullanılabilirlik ve erişilebilirlik göz önünde bulundurularak, kurulumu teknik olarak oldukça karmaşık olabileceğinden, Ultralytics Python paketi henüz FlashAttention çıkarımını desteklememektedir. YOLO12'ye başlama ve performansını optimize etme hakkında daha fazla bilgi edinmek için resmi Ultralytics belgelerine göz atın.
Önemli çıkarımlar
Bilgisayarlı görü ilerledikçe, modeller daha hassas ve verimli hale geliyor. YOLO12, dikkat merkezli işleme ve FlashAttention ile nesne tespiti, örnek segmentasyonu ve görüntü sınıflandırması gibi bilgisayarlı görü görevlerini geliştirerek doğruluğu artırırken bellek kullanımını optimize eder.
Aynı zamanda, bilgisayarlı görü her zamankinden daha erişilebilir durumda. YOLO12, Ultralytics Python paketi aracılığıyla kullanımı kolaydır ve hıza göre doğruluğa odaklanmasıyla tıbbi görüntüleme, endüstriyel denetimler ve robotik gibi hassasiyetin önemli olduğu uygulamalar için çok uygundur.