Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Görsel Dil Modeli (VLM)

Ultralytics ile Vizyon Dil Modellerini (VLM) keşfedin. Ultralytics kullanarak VQA ve açık sözlük algılama için bilgisayar görüşü ile LLM'leri nasıl birleştirdiklerini öğrenin.

Görsel Dil Modeli (VLM), hem görsel bilgileri (görüntüler veya videolar) hem de metin bilgilerini aynı anda işleyip yorumlayabilen bir yapay zeka türüdür. Yalnızca piksel verilerine odaklanan geleneksel bilgisayar görme modellerinden veya yalnızca metni anlayan Büyük Dil Modellerinden (LLM) farklı olarak, VLM'ler bu iki yöntem arasındaki boşluğu doldurur. Görüntü-metin çiftlerini içeren devasa veri kümeleri üzerinde eğitilerek, bu modeller görsel özellikleri dilbilimsel kavramlarla ilişkilendirmeyi öğrenir ve böylece görüntüleri tanımlayabilir, görsel sahnelerle ilgili soruları yanıtlayabilir ve hatta "gördüklerine" dayalı komutları yerine getirebilirler. VLM'ler, yapay zeka sistemlerinin daha akıllı ve etkileşimli hale gelmesine yardımcı olarak,

Görsel Dil Modelleri Nasıl Çalışır?

Temel olarak, VLM'ler genellikle iki ana bileşenden oluşur: bir görme kodlayıcı ve bir metin kodlayıcı. Görme kodlayıcı görüntüleri işleyerek özellik haritalarını ve görsel temsilleri çıkarırken, metin kodlayıcı dilsel girdileri işler. Bu farklı veri akışları daha sonra çapraz dikkat gibi mekanizmalar kullanılarak birleştirilir ve görsel ve metinsel bilgiler ortak bir gömme alanında hizalanır.

2024 ve 2025 yıllarında kaydedilen son gelişmeler, tek bir dönüştürücü om backbone asının her iki modaliteyi de işlediği daha birleşik mimarilere doğru ilerlemiştir. Örneğin, Google 2 gibi modeller, bu akışların etkili bir şekilde entegre edilmesinin karmaşık akıl yürütme görevlerinde performansı nasıl artırabileceğini göstermektedir. Bu uyum, modelin bağlamı anlamasına olanak tanır; örneğin, "elma" kelimesinin bir market görüntüsünde bir meyveyi, ancak bir logoda bir teknoloji şirketini ifade ettiğini fark eder.

Gerçek Dünya Uygulamaları

Dünyayı hem görme hem de dil yoluyla anlama yeteneği, çeşitli endüstrilerde çok çeşitli uygulamaların önünü açar :

  • Görsel Soru Yanıtlama (VQA): VLM'ler, radyologlara yardımcı olmak için sağlık teşhisinde yoğun olarak kullanılmaktadır. Bir doktor sisteme "Bu röntgende kırık var mı?" diye sorabilir ve model tıbbi görüntüyü analiz ederek ön değerlendirme sunar ve böylece teşhis hatalarını azaltır.
  • Akıllı E-Ticaret Arama: Perakende ortamlarında, VLM'ler kullanıcıların doğal dil açıklamalarıyla görüntüleri birleştirerek ürünleri aramasına olanak tanır. Bir alışverişçi, bir ünlünün kıyafetinin fotoğrafını yükleyip "Bu desende ama mavi renkli bir elbise bul" diyebilir ve sistem, anlamsal arama kullanarak doğru eşleşmeleri bulur.
  • Otomatik Altyazı ve Erişilebilirlik: VLM'ler, web'deki görüntüler için otomatik olarak açıklayıcı alt metinler oluşturarak, ekran okuyuculara güvenen görme engelli kullanıcılar için dijital içeriği daha erişilebilir hale getirir.

VLMs'yi İlgili Kavramlardan Ayırma

VLMs'nin diğer AI kategorilerinden ayırt edilmesi, bunların özel rollerini anlamak açısından yararlıdır:

  • VLM ve LLM: Büyük Dil Modeli (GPT-4 metin tabanlı sürümleri gibi) yalnızca metin verilerini işler. Yaratıcı hikayeler veya kodlar üretebilse de, bir görüntüyü "göremez". VLM, LLM'ye etkili bir şekilde gözler kazandırır.
  • VLM ve Nesne Algılama: Erken YOLO sürümleri gibi geleneksel nesne algılama modelleri, nesnelerin nerede olduğunu ve hangi sınıfa ait olduklarını (örneğin, "Araba: %99") belirler. VLM ise "yangın musluğunun yanında park edilmiş kırmızı spor araba" gibi ilişkileri ve özellikleri de anlayarak daha ileri gider. VLM ve Nesne Algılama: Erken YOLO sürümleri gibi geleneksel nes ne algılama modelleri, nesnelerin nerede olduğunu ve hangi sınıfa ait olduklarını (örneğin, "Araba: %99") belirler. VLM ise "yangın musluğunun yanında park edilmiş kırmızı spor araba" gibi ilişkileri ve özellikleri de anlayarak daha ileri gider.
  • VLM ve Multimodal AI: Multimodal AI daha geniş bir terimdir. Tüm VLMs multimodal olsa da (görme ve dili birleştirir), tüm multimodal modeller VLM değildir; bazıları ses ve metni (konuşma-metin gibi) veya video ve sensör verilerini dil bileşeni olmadan birleştirebilir.

YOLO ile Açık Kelime Dağarcığı Algılama

Modern VLM'ler, önceden tanımlanmış sınıflar yerine serbest biçimli metin komutları kullanarak detect "açık sözlük" algılamayı mümkün kılar. Bu, Ultralytics YOLO gibi modellerin temel bir özelliğidir ve yeniden eğitim gerektirmeden dinamik sınıf tanımlamalarına olanak tanır. Bu, önceden tanımlanmış sınıflar yerine serbest biçimli metin komutları kullanarak detect "açık sözlük" algılamayı mümkün kılar. Bu, Ultralytics YOLO gibi modellerin temel bir özelliğidir ve yeniden eğitim gerektirmeden dinamik sınıf tanımlamalarına olanak tanır.

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics metinle tanımlanan detect nesneleri detect için paket :

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Zorluklar ve Gelecek Yönelimler

Güçlü olmalarına rağmen, Görsel Dil Modelleri önemli zorluklarla karşı karşıyadır. Bunlardan biri, halüsinasyon, yani modelin, aslında orada olmayan nesneleri veya metinleri bir görüntüde kendinden emin bir şekilde tanımlamasıdır. Araştırmacılar, temellendirme ve doğruluğu artırmak için İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) gibi teknikler üzerinde aktif olarak çalışmaktadır.

Bir başka zorluk da hesaplama maliyetidir. Bu devasa modelleri eğitmek için önemli miktarda GPU gerekir. Ancak, Ultralytics gibi verimli mimarilerin piyasaya sürülmesi, gelişmiş görme yeteneklerini uç cihazlara taşımaya yardımcı olmaktadır. İlerleyen zamanlarda, VLM'lerin robotik ajanlarda önemli bir rol oynayarak robotların karmaşık sözlü talimatlara göre nesneleri yönlendirmesine ve manipüle etmesine olanak tanımasını bekliyoruz.

Teorik temellerle ilgilenenler için, OpenAI tarafından yayınlanan orijinal CLIP makalesi, kontrastif dil-görüntü ön eğitimi hakkında mükemmel bilgiler sunmaktadır. Ayrıca, bu mimari yapıların hızlı gelişimini takip etmek için CVPR konferans makalelerini takip etmek çok önemlidir. Kendi görme modellerinizi eğitmek için deney yapmak isterseniz, Ultralytics kullanarak veri seti yönetimini ve model dağıtımını kolaylaştırabilirsiniz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın