Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Görsel Soru Yanıtlama (VQA)

CV ve NLP'nin kesiştiği noktada Görsel Soru Yanıtlama (VQA) teknolojisini keşfedin. Ultralytics gerçek zamanlı uygulamalar ve çok modlu yapay zeka için VQA'yı nasıl desteklediğini öğrenin.

Görsel Soru Yanıtlama (VQA), Bilgisayar Görme (CV) ve Doğal Dil İşleme (NLP) alanlarının kesişiminde yer alan sofistike bir yapay zeka görevidir. Bir resme tek bir etiket atayan geleneksel görüntü sınıflandırmasından farklı olarak, VQA sistemleri bir görüntünün görsel içeriği hakkında açık uçlu doğal dil sorularını yanıtlamak üzere tasarlanmıştır. Örneğin, bir mutfağın fotoğrafı verildiğinde kullanıcı "Ocak açık mı?" veya "Kasede kaç elma var?" gibi sorular sorabilir. Doğru cevap vermek için model, metnin anlamını anlamalı, sahnedeki ilgili nesneleri tanımlamalı ve bunların özellikleri ve uzamsal ilişkileri hakkında mantık yürütmelidir.

Bu yetenek, VQA'yı modern çok modlu yapay zekanın temel bir bileşeni haline getirir, çünkü farklı veri türlerinin eşzamanlı işlenmesini gerektirir. Mimari genellikle, görüntüden özellikleri çıkarmak için Convolutional Neural Network (CNN) veya Görsel Dönüştürücü (ViT) gibi bir görsel kodlayıcı ve dilbilimsel sorguyu işlemek için bir metin kodlayıcı içerir. Gelişmiş sistemler, metinsel kavramları görüntünün belirli bölgeleriyle uyumlu hale getirmek için bir dikkat mekanizması kullanır ve böylece yapay zeka, bir cevap üretmeden önce fotoğrafın ilgili kısımlarına "bakabilir" .

Gerçek Dünya Uygulamaları ve Önemi

Görsel verileri dinamik olarak sorgulama yeteneği, çeşitli endüstrilerde dönüştürücü uygulamalara yol açarak otomasyon ve erişilebilirliği artırmıştır.

  • Yardımcı Teknoloji: VQA, görme engelli bireyleri destekleyen uygulamalar için hayati önem taşır. Be My Eyes gibi araçlar VQA'yı kullanarak kullanıcıların çevrelerinin fotoğrafını çekmelerine ve "Bu şişe şampuan mı, saç kremi mi?" veya "Karşıya geçmek güvenli mi?" gibi sorular sormalarına olanak tanır. Bu, görsel bilgileri sesli cevaplara dönüştürerek daha fazla bağımsızlık sağlar.
  • Tıbbi Teşhis: Sağlık hizmetlerinde yapay zeka alanında, VQA sistemleri tıbbi görüntüleri analiz ederek radyologlara yardımcı olur. Bir pratisyen, bir X-ray hakkında sisteme "Sol üst kadranda kırık var mı?" gibi sorular sorabilir. Ulusal Sağlık Enstitüleri (NIH) araştırmacıları, klinik karar verme sürecini kolaylaştırmak ve teşhis hatalarını azaltmak için VQA'yı araştırmıştır. VQA, tıbbi görüntüleri analiz ederek, doktorların teşhis koymasına yardımcı olur.
  • Akıllı Gözetim: Modern güvenlik sistemleri, güvenlik için yapay zekakullanarak saatlerce süren video görüntülerini analiz eder. Operatörler, manuel inceleme yerine "Gece yarısından sonra kırmızı bir kamyon yükleme rampasına girdi mi?" diye sorabilir. VQA, genel hareket uyarıları yerine belirli kriterlere dayalı hızlı anormallik tespiti sağlar.

VQA'da Nesne Algılamanın Rolü

Bazı VQA modelleri uçtan uca eğitilirken, çoğu önce sahne öğelerini tanımlamak backbone sağlam bir nesne algılama backbone dayanır . Nesneleri doğru bir şekilde konumlandırmak, akıl yürütme motoru için gerekli bağlamı sağlar. Ultralytics modeli, yüksek doğruluğu ve gerçek zamanlı performansı nedeniyle bu boru hatları için mükemmel bir temel görev görür.

Örneğin, geliştiriciler YOLO26'yı kullanarak nesne sınıflarını ve sınırlayıcı kutuları çıkarabilirler. Bunlar daha sonra Büyük Dil Modeli (LLM) veya özel bir akıl yürütme modülüne aktarılır ve kullanıcı sorgularını yanıtlamak için kullanılır. Bu algılama omurgalarını eğitmek için veri kümelerini yönetmek, genellikle Ultralytics kullanılarak kolaylaştırılır. Bu platform, açıklama ve bulut eğitimini basitleştirir.

Aşağıdaki Python , YOLO26'yı kullanarak bir görüntüden görsel bağlamı (nesneler ve konumları) çıkarmanın nasıl yapıldığını göstermektedir. Bu, VQA iş akışının ilk adımıdır:

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
    result.show()  # Visualize the detections

VQA'yı İlgili Kavramlardan Ayırma

VQA'nın benzersiz kapsamını anlamak için, VQA'yı benzer görme-dil görevlerinden ayırmak yararlıdır.

  • VQA ve Görüntü Altyazıları: Görüntü altyazıları, görüntünün tamamı hakkında genel ve statik bir açıklama oluşturur (örneğin, "Parkta oynayan bir köpek"). VQA ise etkileşimli ve spesifiktir; genel bir özet yerine, kullanıcının sorusuna hedefli bir yanıt verir.
  • VQA ve Görsel Temellendirme: Görsel temellendirme, bir metin cümlesinde bahsedilen belirli bir nesneyi etrafına bir sınır kutusu çizerek bulmaya odaklanır. VQA ise bulunan nesnelerin özelliklerini, eylemlerini veya miktarlarını analiz ederek daha da ileri gider.
  • VQA ve OCR: Optik Karakter Tanıma (OCR) sadece görüntülerden metin çıkarmak için kullanılırken, VQA " Sokak tabelasında ne yazıyor?" gibi soruları yanıtlamak için OCR'yi kullanabilir. Ancak VQA'nın temel işlevi, sadece metin okumakla sınırlı olmayan, daha geniş bir sahne anlayışını içerir .

Araştırmacılar, modellerin milyonlarca görüntü-soru çiftini genelleştirmesine yardımcı olan VQA Veri Seti gibi büyük ölçekli karşılaştırmalı değerlendirmeler kullanarak bu alanda ilerleme kaydetmeye devam ediyor. Donanımların gelişmesiyle birlikte daha hızlı çıkarım gecikmesi mümkün hale geldikçe, VQA gerçek zamanlı mobil ve uç uygulamalar için giderek daha uygulanabilir hale geliyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın