YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

YOLO-World ile uygulamalı deneyim

Abirami Vina

4 dakika okuma

5 Nisan 2024

Metin istemleri aracılığıyla nesneleri tanımlayabilen yenilikçi bir nesne algılama modeli olan YOLO-World hakkında bilgi edinin. YOLO-World'ün nasıl çalıştığını ve uygulamalarını keşfedin ve hızlı bir kod örneğiyle uygulamalı deneyim kazanın.

Bilgisayarla görü projeleri genellikle verileri etiketlemek ve nesne algılama modellerini eğitmek için çok zaman harcamayı içerir. Ancak bu durum yakında geçmişte kalabilir. Tencent'in AI Laboratuvarı, 31 Ocak 2024'te gerçek zamanlı, açık kelime dağarcığına sahip bir nesne algılama modeli olan YOLO-World'ü yayınladı. YOLO-World, sıfır atışlı bir modeldir, yani onu eğitmek zorunda kalmadan görüntüler üzerinde nesne algılama çıkarımları çalıştırabilirsiniz.

Sıfır atışlı modeller, bilgisayarlı görü uygulamalarına yaklaşımımızı değiştirme potansiyeline sahiptir. Bu blogda, YOLO-World'ün nasıl çalıştığını ve potansiyel kullanımlarını keşfedecek ve başlamanıza yardımcı olacak pratik bir kod örneği paylaşacağız.

YOLO-World'e bir bakış

YOLO-World modeline, aradığınız nesneleri tanımlayan bir resim ve metin istemi gönderebilirsiniz. Örneğin, bir fotoğrafta "kırmızı tişört giyen birini" bulmak istiyorsanız, YOLO-World bu girdiyi alır ve işe koyulur.

Modelin benzersiz mimarisi üç ana unsuru birleştirir:

  • Görüntünün görsel içeriğini analiz etmek için Ultralytics YOLOv8 nesne algılama modeline dayalı bir dedektör.
  • OpenAI'nin CLIP'i tarafından önceden eğitilmiş ve özellikle metin isteminizi anlamak için tasarlanmış bir metin kodlayıcı. 
  • İşlenmiş görüntü verilerini metin verileriyle entegre eden bir ağ olan Vision-Language Path Aggregation Network (RepVL-PAN).

YOLO dedektörü, potansiyel nesneleri belirlemek için girdi görüntünüzü tarar. Metin kodlayıcı, açıklamanızı modelin anlayabileceği bir biçime dönüştürür. Bu iki bilgi akışı daha sonra çok seviyeli çapraz modalite füzyonu kullanılarak RepVL-PAN aracılığıyla birleştirilir. Bu, YOLO-World'ün isteminizde açıklanan nesneleri görüntü içinde hassas bir şekilde algılamasını ve konumlandırmasını sağlar.

YOLO-World'den sonuçlara bir örnek.

YOLO-World'ü seçmenin faydaları

YOLO-World'ü kullanmanın en büyük avantajlarından biri, modeli belirli bir sınıf için eğitmek zorunda olmamanızdır. Görüntü ve metin çiftlerinden zaten öğrendiği için, açıklamalarına göre nesneleri nasıl bulacağını bilir. Veri toplama, veri etiketleme, pahalı GPU'larda eğitim vb. saatlerden kaçınabilirsiniz.

İşte YOLO-World kullanmanın diğer bazı faydaları:

  • Gerçek Zamanlı Performans - YOLO-World, tıpkı orijinal YOLO mimarisi gibi gerçek zamanlı performansı destekler. Otonom araçlar ve gözetim sistemleri gibi anında nesne tespiti gerektiren uygulamalar için idealdir.
  • Nesne Bölümlendirme - YOLO-World, resimlerdeki nesneleri, eğitimi sırasında özellikle öğretilmemiş olsalar bile, düzgün bir şekilde ana hatlarıyla belirleyebilir ve ayırabilir.
  • Verimlilik - YOLO-World, yüksek doğruluğu hesaplama verimliliği ile birleştirerek gerçek dünya uygulamaları için pratik hale getirir. Akıcı mimarisi, işlem gücü üzerinde aşırı talepte bulunmadan hızlı nesne tespitini mümkün kılar.

YOLO-World'ün uygulama alanları

YOLO-World modelleri çok çeşitli uygulamalar için kullanılabilir. Bunlardan bazılarını keşfedelim.

Üretimde kalite kontrolü

Bir montaj hattında üretilen ürünler, paketlenmeden önce görsel olarak kusurlara karşı kontrol edilir. Kusur tespiti genellikle elle yapılır, bu da zaman alır ve hatalara yol açabilir. Bu hatalar, yüksek maliyetler ve onarım veya geri çağırma ihtiyacı gibi sorunlara neden olabilir. Buna yardımcı olmak için, bu kontrolleri gerçekleştirmek üzere özel makine görüş kameraları ve yapay zeka sistemleri oluşturulmuştur. 

YOLO-World modelleri bu alanda büyük bir ilerlemedir. Sıfır atış yeteneklerini kullanarak, belirli bir sorun için eğitilmemiş olsalar bile ürünlerdeki kusurları bulabilirler. Örneğin, su şişesi üreten bir fabrika, YOLO-World'ü kullanarak düzgün şekilde kapatılmış bir şişe ile kapağı eksik veya hatalı bir şişe arasında kolayca ayrım yapabilir.

Şişe kapağı denetimi örneği.

Robotik

YOLO-World modelleri, robotların yabancı ortamlarda etkileşim kurmasını sağlar. Bir odada olabilecek belirli nesneler üzerinde eğitilmeden bile, hangi nesnelerin mevcut olduğunu tanımlayabilirler. Örneğin, bir robot daha önce hiç bulunmadığı bir odaya giriyor. Bir YOLO-World modeli ile, özellikle bu öğeler üzerinde eğitilmemiş olsa bile, sandalyeler, masalar veya lambalar gibi nesneleri tanıyabilir ve tanımlayabilir.

YOLO-World, nesne tespiti yapmasının yanı sıra, 'prompt-then-detect' özelliği sayesinde bu nesnelerin koşullarını da belirleyebilir. Örneğin, tarım robotiklerinde, robotu tespit edecek şekilde programlayarak olgun meyveleri olgunlaşmamış meyvelerden ayırmak için kullanılabilir.

Otomobil endüstrisinde yapay zeka

Otomobil endüstrisi birçok hareketli parça içerir ve YOLO-World farklı otomobil uygulamaları için kullanılabilir. Örneğin, otomobil bakımı söz konusu olduğunda, YOLO-World'ün manuel etiketleme veya kapsamlı ön eğitim olmadan çok çeşitli nesneleri tanıma yeteneği son derece kullanışlıdır. YOLO-World, değiştirilmesi gereken otomobil parçalarını belirlemek için kullanılabilir. Hatta yeni otomobillerde kalite kontrolleri, kusurları veya eksik parçaları tespit etme gibi görevleri otomatikleştirebilir.

Bir diğer uygulama alanı ise otonom sürüşlü araçlardaki sıfır atışlı nesne tespitidir. YOLO-World'ün sıfır atışlı tespit yetenekleri, otonom bir aracın yoldaki yayalar, trafik işaretleri ve diğer araçlar gibi nesneleri gerçek zamanlı olarak tespit etme ve sınıflandırma yeteneğini geliştirebilir. Bunu yaparak, engelleri tespit etmeye ve daha güvenli bir yolculuk için kazaları önlemeye yardımcı olabilir. 

Bir yolda nesneleri algılama örneği.

Perakende mağazaları için envanter yönetimi

Perakende mağazalarındaki raflarda bulunan nesneleri tanımlamak, envanteri takip etmenin, stokları korumanın ve süreçleri otomatikleştirmenin önemli bir parçasıdır. Ultralytics YOLO-World'ün manuel etiketleme veya kapsamlı ön eğitim olmadan çok çeşitli nesneleri tanıma yeteneği, envanter yönetimi için son derece kullanışlıdır. 

Örneğin, envanter yönetiminde YOLO-World, bir raftaki farklı enerji içeceği markaları gibi öğeleri hızla tespit edip sınıflandırabilir. Perakende mağazaları doğru envanter tutabilir, stok seviyelerini verimli bir şekilde yönetebilir ve tedarik zinciri operasyonlarını düzene sokabilir. 

Tüm uygulamalar benzersizdir ve YOLO-World'ün ne kadar kapsamlı kullanılabileceğini gösterir. Ardından, YOLO-World ile uygulamalı olarak ilgilenelim ve bir kodlama örneğine göz atalım.

Bir kod incelemesi

Daha önce de belirttiğimiz gibi, YOLO-World bir arabanın farklı parçalarını bakım için tespit etmek için kullanılabilir. İhtiyaç duyulan herhangi bir onarımı tespit eden bir bilgisayarlı görü uygulaması, arabanın bir resmini çekmeyi, araba parçalarını tanımlamayı, her bir araba parçasını hasar açısından incelemeyi ve onarımlar önermeyi içerir. Bu sistemin her bir parçası farklı AI teknikleri ve yaklaşımları kullanacaktır. Bu kod incelemesinin amacı için, araba parçalarının tespit edildiği kısma odaklanalım.

YOLO-World ile bir görüntüdeki farklı araba parçalarını 5 dakikadan kısa sürede tanımlayabilirsiniz. Bu kodu, YOLO-World'ü kullanarak farklı uygulamaları denemek için de genişletebilirsiniz! Başlamak için, aşağıda gösterildiği gibi Ultralytics paketini pip ile kurmamız gerekecek.

Kurulum süreciyle ilgili daha fazla talimat ve en iyi uygulamalar için Ultralytics Kurulum kılavuzumuza bakın. YOLOv8 için gerekli paketleri kurarken herhangi bir zorlukla karşılaşırsanız, çözümler ve ipuçları için Sık Karşılaşılan Sorunlar kılavuzumuza göz atın.

Gerekli paketi yükledikten sonra, üzerinde çıkarımlarımızı çalıştıracağımız bir görüntüyü İnternet'ten indirebiliriz. Aşağıdaki resmi kullanacağız.

Girdi görüntümüz.

Ardından, gerekli paketi içe aktaracağız, modelimizi başlatacağız ve girdi görüntümüzde aradığımız sınıfları ayarlayacağız. Burada, şu sınıflarla ilgileniyoruz: araba, tekerlek, araba kapısı, araba aynası ve plaka.

Daha sonra, görüntü üzerinde çıkarım çalıştırmak için görüntünün yolunu, maksimum algılama sayısı parametrelerini ve birleşim üzerindeki kesişim (IoU) ve güven (conf) eşiklerini sağlayarak tahmin yöntemini kullanacağız. Son olarak, algılanan nesneler 'result.jpg' adlı bir dosyaya kaydedilir.

Aşağıdaki çıktı görüntüsü dosyalarınıza kaydedilecektir.

Çıktı görüntümüz.

Kod yazmadan YOLO-World'ün neler yapabileceğini görmek isterseniz, YOLO-World Demo sayfasına gidebilir, bir girdi görüntüsü yükleyebilir ve özel sınıfları girebilirsiniz. 

Özel sınıfları tekrar tekrar girmeden daha sonra doğrudan kullanılabilmesi için modeli özel sınıflarla nasıl kaydedeceğinizi öğrenmek için YOLO-World ile ilgili doküman sayfamızı okuyun.

Araba kapılarının algılanmadığını fark ettiniz mi?

Çıktı görüntüsüne tekrar bakarsanız, özel sınıf olan "araba kapısı"nın algılanmadığını fark edeceksiniz. Büyük başarılarına rağmen, YOLO-World'ün bazı sınırlamaları vardır. Bu sınırlamaların üstesinden gelmek ve YOLO-World modelini etkili bir şekilde kullanmak için, doğru türde metinsel istemler kullanmak önemlidir. 

İşte bu konuda bazı bilgiler:

  • YOLO-World, doğru tahminler için yüksek güven düzeylerine ihtiyaç duymayabilir, bu nedenle güven eşiklerini azaltmak algılama oranlarını artırabilir.
  • İlgilenmediğiniz sınıfları ekleyin. İkincil nesneler için yanlış pozitifleri azaltarak birincil nesne algılamayı iyileştirmeye yardımcı olacaktır.
  • Daha küçük detaylara odaklanmadan önce daha büyük nesneleri tespit etmek, algılama doğruluğunu artırabilir.
  • Renk ipuçlarına göre nesneleri tespit etmek için sınıflarınızda renklerden bahsedin.
  • Komut istemlerinde nesne boyutlarını tanımlamak, YOLO-World'ün belirli nesneleri daha doğru bir şekilde tanımlamasına da yardımcı olabilir.
  • Boyutlarına göre tahminleri filtreleme veya sınıf başına güven düzeylerini ayarlama gibi işlem sonrası yöntemler, nesne algılama sonuçlarını daha da iyileştirebilir.

Sınırlar sonsuzdur

Genel olarak, YOLO-World modelleri, gelişmiş nesne algılama yetenekleriyle güçlü bir araç haline getirilebilir. Araba parçalarını tanımlama örneğinde olduğu gibi, çeşitli uygulamalarda harika verimlilik, doğruluk sağlar ve farklı görevleri otomatikleştirmeye yardımcı olur.

Bilgisayarlı görü ve yapay zekaya katkılarımız hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfetmekten çekinmeyin. Yapay zekanın sağlık teknolojisi gibi sektörleri nasıl yeniden şekillendirdiği hakkında meraklıysanız, çözüm sayfalarımıza göz atın. YOLO-World gibi yeniliklerle olasılıklar sonsuz gibi görünüyor!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı