CV ve NLP'nin kesiştiği noktada Görsel Soru Yanıtlama (VQA) teknolojisini keşfedin. Ultralytics gerçek zamanlı uygulamalar ve çok modlu yapay zeka için VQA'yı nasıl desteklediğini öğrenin.
Görsel Soru Yanıtlama (VQA), Bilgisayar Görme (CV) ve Doğal Dil İşleme (NLP) alanlarının kesişiminde yer alan sofistike bir yapay zeka görevidir. Bir resme tek bir etiket atayan geleneksel görüntü sınıflandırmasından farklı olarak, VQA sistemleri bir görüntünün görsel içeriği hakkında açık uçlu doğal dil sorularını yanıtlamak üzere tasarlanmıştır. Örneğin, bir mutfağın fotoğrafı verildiğinde kullanıcı "Ocak açık mı?" veya "Kasede kaç elma var?" gibi sorular sorabilir. Doğru cevap vermek için model, metnin anlamını anlamalı, sahnedeki ilgili nesneleri tanımlamalı ve bunların özellikleri ve uzamsal ilişkileri hakkında mantık yürütmelidir.
Bu yetenek, VQA'yı modern çok modlu yapay zekanın temel bir bileşeni haline getirir, çünkü farklı veri türlerinin eşzamanlı işlenmesini gerektirir. Mimari genellikle, görüntüden özellikleri çıkarmak için Convolutional Neural Network (CNN) veya Görsel Dönüştürücü (ViT) gibi bir görsel kodlayıcı ve dilbilimsel sorguyu işlemek için bir metin kodlayıcı içerir. Gelişmiş sistemler, metinsel kavramları görüntünün belirli bölgeleriyle uyumlu hale getirmek için bir dikkat mekanizması kullanır ve böylece yapay zeka, bir cevap üretmeden önce fotoğrafın ilgili kısımlarına "bakabilir" .
Görsel verileri dinamik olarak sorgulama yeteneği, çeşitli endüstrilerde dönüştürücü uygulamalara yol açarak otomasyon ve erişilebilirliği artırmıştır.
Bazı VQA modelleri uçtan uca eğitilirken, çoğu önce sahne öğelerini tanımlamak backbone sağlam bir nesne algılama backbone dayanır . Nesneleri doğru bir şekilde konumlandırmak, akıl yürütme motoru için gerekli bağlamı sağlar. Ultralytics modeli, yüksek doğruluğu ve gerçek zamanlı performansı nedeniyle bu boru hatları için mükemmel bir temel görev görür.
Örneğin, geliştiriciler YOLO26'yı kullanarak nesne sınıflarını ve sınırlayıcı kutuları çıkarabilirler. Bunlar daha sonra Büyük Dil Modeli (LLM) veya özel bir akıl yürütme modülüne aktarılır ve kullanıcı sorgularını yanıtlamak için kullanılır. Bu algılama omurgalarını eğitmek için veri kümelerini yönetmek, genellikle Ultralytics kullanılarak kolaylaştırılır. Bu platform, açıklama ve bulut eğitimini basitleştirir.
Aşağıdaki Python , YOLO26'yı kullanarak bir görüntüden görsel bağlamı (nesneler ve konumları) çıkarmanın nasıl yapıldığını göstermektedir. Bu, VQA iş akışının ilk adımıdır:
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
result.show() # Visualize the detections
VQA'nın benzersiz kapsamını anlamak için, VQA'yı benzer görme-dil görevlerinden ayırmak yararlıdır.
Araştırmacılar, modellerin milyonlarca görüntü-soru çiftini genelleştirmesine yardımcı olan VQA Veri Seti gibi büyük ölçekli karşılaştırmalı değerlendirmeler kullanarak bu alanda ilerleme kaydetmeye devam ediyor. Donanımların gelişmesiyle birlikte daha hızlı çıkarım gecikmesi mümkün hale geldikçe, VQA gerçek zamanlı mobil ve uç uygulamalar için giderek daha uygulanabilir hale geliyor.