Ultralytics ile Vizyon Dil Modellerini (VLM) keşfedin. Ultralytics kullanarak VQA ve açık sözlük algılama için bilgisayar görüşü ile LLM'leri nasıl birleştirdiklerini öğrenin.
Görsel Dil Modeli (VLM), hem görsel bilgileri (görüntüler veya videolar) hem de metin bilgilerini aynı anda işleyip yorumlayabilen bir yapay zeka türüdür. Yalnızca piksel verilerine odaklanan geleneksel bilgisayar görme modellerinden veya yalnızca metni anlayan Büyük Dil Modellerinden (LLM) farklı olarak, VLM'ler bu iki yöntem arasındaki boşluğu doldurur. Görüntü-metin çiftlerini içeren devasa veri kümeleri üzerinde eğitilerek, bu modeller görsel özellikleri dilbilimsel kavramlarla ilişkilendirmeyi öğrenir ve böylece görüntüleri tanımlayabilir, görsel sahnelerle ilgili soruları yanıtlayabilir ve hatta "gördüklerine" dayalı komutları yerine getirebilirler. VLM'ler, yapay zeka sistemlerinin daha akıllı ve etkileşimli hale gelmesine yardımcı olarak,
Temel olarak, VLM'ler genellikle iki ana bileşenden oluşur: bir görme kodlayıcı ve bir metin kodlayıcı. Görme kodlayıcı görüntüleri işleyerek özellik haritalarını ve görsel temsilleri çıkarırken, metin kodlayıcı dilsel girdileri işler. Bu farklı veri akışları daha sonra çapraz dikkat gibi mekanizmalar kullanılarak birleştirilir ve görsel ve metinsel bilgiler ortak bir gömme alanında hizalanır.
2024 ve 2025 yıllarında kaydedilen son gelişmeler, tek bir dönüştürücü om backbone asının her iki modaliteyi de işlediği daha birleşik mimarilere doğru ilerlemiştir. Örneğin, Google 2 gibi modeller, bu akışların etkili bir şekilde entegre edilmesinin karmaşık akıl yürütme görevlerinde performansı nasıl artırabileceğini göstermektedir. Bu uyum, modelin bağlamı anlamasına olanak tanır; örneğin, "elma" kelimesinin bir market görüntüsünde bir meyveyi, ancak bir logoda bir teknoloji şirketini ifade ettiğini fark eder.
Dünyayı hem görme hem de dil yoluyla anlama yeteneği, çeşitli endüstrilerde çok çeşitli uygulamaların önünü açar :
VLMs'nin diğer AI kategorilerinden ayırt edilmesi, bunların özel rollerini anlamak açısından yararlıdır:
Modern VLM'ler, önceden tanımlanmış sınıflar yerine serbest biçimli metin komutları kullanarak detect "açık sözlük" algılamayı mümkün kılar. Bu, Ultralytics YOLO gibi modellerin temel bir özelliğidir ve yeniden eğitim gerektirmeden dinamik sınıf tanımlamalarına olanak tanır. Bu, önceden tanımlanmış sınıflar yerine serbest biçimli metin komutları kullanarak detect "açık sözlük" algılamayı mümkün kılar. Bu, Ultralytics YOLO gibi modellerin temel bir özelliğidir ve yeniden eğitim gerektirmeden dinamik sınıf tanımlamalarına olanak tanır.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics metinle tanımlanan detect nesneleri detect için paket
:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Güçlü olmalarına rağmen, Görsel Dil Modelleri önemli zorluklarla karşı karşıyadır. Bunlardan biri, halüsinasyon, yani modelin, aslında orada olmayan nesneleri veya metinleri bir görüntüde kendinden emin bir şekilde tanımlamasıdır. Araştırmacılar, temellendirme ve doğruluğu artırmak için İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) gibi teknikler üzerinde aktif olarak çalışmaktadır.
Bir başka zorluk da hesaplama maliyetidir. Bu devasa modelleri eğitmek için önemli miktarda GPU gerekir. Ancak, Ultralytics gibi verimli mimarilerin piyasaya sürülmesi, gelişmiş görme yeteneklerini uç cihazlara taşımaya yardımcı olmaktadır. İlerleyen zamanlarda, VLM'lerin robotik ajanlarda önemli bir rol oynayarak robotların karmaşık sözlü talimatlara göre nesneleri yönlendirmesine ve manipüle etmesine olanak tanımasını bekliyoruz.
Teorik temellerle ilgilenenler için, OpenAI tarafından yayınlanan orijinal CLIP makalesi, kontrastif dil-görüntü ön eğitimi hakkında mükemmel bilgiler sunmaktadır. Ayrıca, bu mimari yapıların hızlı gelişimini takip etmek için CVPR konferans makalelerini takip etmek çok önemlidir. Kendi görme modellerinizi eğitmek için deney yapmak isterseniz, Ultralytics kullanarak veri seti yönetimini ve model dağıtımını kolaylaştırabilirsiniz.