YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Görüntü dili modellerini ve uygulamalarını anlama

Abirami Vina

6 dakika okuma süresi

5 Temmuz 2024

Görüntü dili modelleri, nasıl çalıştıkları ve yapay zekadaki çeşitli uygulamaları hakkında bilgi edinin. Bu modellerin görsel ve dil yeteneklerini nasıl birleştirdiğini keşfedin.

Önceki bir makalede, GPT-4o'nun görüntüleri kelimelerle nasıl anlayıp tanımlayabildiğini inceledik. Google Gemini ve Claude 3 gibi diğer yeni modellerde de bu yeteneği görüyoruz. Bugün, Görüntü Dili Modellerinin nasıl çalıştığını ve görsel ve metinsel verileri nasıl birleştirdiğini açıklamak için bu kavramı daha derinlemesine inceliyoruz. 

Bu modeller, fotoğraflar için ayrıntılı başlıklar oluşturma, görüntülerle ilgili soruları yanıtlama ve hatta metinsel açıklamalara dayalı olarak yeni görsel içerik oluşturma gibi bir dizi etkileyici görevi gerçekleştirmek için kullanılabilir. Görüntü Dili Modelleri, görsel ve dilsel bilgileri sorunsuz bir şekilde entegre ederek teknolojiyle nasıl etkileşim kurduğumuzu ve etrafımızdaki dünyayı nasıl anladığımızı değiştiriyor.

Görüntü dili modelleri nasıl çalışır

Görüntü Dili Modellerinin (VLM'ler) nerede kullanılabileceğine bakmadan önce, bunların ne olduğunu ve nasıl çalıştığını anlayalım. VLM'ler, hem görüntüleri hem de metni işlemek için görme ve dil modellerinin yeteneklerini birleştiren gelişmiş yapay zeka modelleridir. Bu modeller, metin açıklamalarıyla birlikte resimleri alır ve ikisi arasında bağlantı kurmayı öğrenir. Modelin görme kısmı görüntülerdeki ayrıntıları yakalarken, dil kısmı metni anlar. Bu işbirliği, VLM'lerin hem görüntüleri hem de metni anlamasını ve analiz etmesini sağlar.

İşte Görüntü Dili Modellerinin temel yetenekleri:

  • Görüntü Başlığı Oluşturma: Görüntülerin içeriğine göre açıklayıcı metin oluşturma.
  • Görsel Soru Cevaplama (VQA): Bir görüntünün içeriğiyle ilgili soruları yanıtlama.
  • Metinden-Görüntü Oluşturma: Metinsel açıklamalara göre görüntüler oluşturma.
  • Görsel-Metin Erişimi: Belirli bir metin sorgusu için ilgili görselleri ve bunun tersini bulma.
  • Çok Modlu Üretim: Yeni içerik oluşturmak için görselleri ve metni birleştirme.
  • Sahne Anlama ve Nesne Tespiti: Bir görseldeki nesneleri ve detayları tanımlama ve kategorize etme.
__wf_reserved_inherit
şekil 1. Bir görsel dil modelinin yeteneklerine bir örnek.

Sıradaki bölümde, CLIP, SimVLM ve VisualGPT gibi tanınmış modeller tarafından kullanılan yaygın VLM mimarilerini ve öğrenme tekniklerini inceleyelim.

Kontrastif öğrenme

Kontrastif öğrenme, modellerin veri noktaları arasındaki farklılıkları karşılaştırarak öğrenmesine yardımcı olan bir tekniktir. Örneklerin ne kadar benzer veya farklı olduğunu hesaplar ve bu farklılıkları ölçen kontrastif kaybı en aza indirmeyi amaçlar. Küçük bir etiketli örnek kümesinin modelin yeni, görülmemiş verileri etiketlemesine rehberlik ettiği yarı denetimli öğrenmede özellikle yararlıdır. Örneğin, bir kedinin neye benzediğini anlamak için model, onu benzer kedi resimleri ve köpek resimleriyle karşılaştırır. Yüz yapısı, vücut büyüklüğü ve kıl gibi özellikleri belirleyerek, kontrastif öğrenme teknikleri bir kedi ile bir köpeği ayırt edebilir.

__wf_reserved_inherit
Şekil 2. Kontrastif öğrenme nasıl çalışır.

CLIP, metin açıklamalarını görsellerle eşleştirmek için kontrastif öğrenmeyi kullanan bir Görsel-Dil Modelidir. Üç basit adımla çalışır. Öncelikle, modelin hem metni hem de görselleri anlayan kısımlarını eğitir. İkincisi, bir veri kümesindeki kategorileri metin açıklamalarına dönüştürür. Üçüncüsü, belirli bir görsel için en iyi eşleşen açıklamayı belirler. Bu yöntem sayesinde, CLIP modeli özellikle eğitilmediği görevler için bile doğru tahminler yapabilir.

PrefixLM

PrefixLM, modelleri eğitmek için kullanılan bir Doğal Dil İşleme (NLP) tekniğidir. Bir cümlenin bir kısmıyla (bir önek) başlar ve bir sonraki kelimeyi tahmin etmeyi öğrenir. Görsel-Dil Modellerinde PrefixLM, modelin bir görsel ve verilen bir metin parçasına dayanarak sonraki kelimeleri tahmin etmesine yardımcı olur. Bir görseli, görselin bir parçasını temsil eden küçük parçalara ayıran ve bunları sırayla işleyen bir Görsel Dönüştürücü (ViT) kullanır. 

__wf_reserved_inherit
Şekil 3. PrefixLM tekniğini kullanan bir VLM'yi eğitme örneği.

SimVLM, PrefixLM öğrenme tekniğini kullanan bir VLM'dir. Önceki modellere kıyasla daha basit bir Transformer mimarisi kullanır, ancak çeşitli testlerde daha iyi sonuçlar elde eder. Model mimarisi, bir transformer kodlayıcı kullanarak görselleri metin önekleriyle ilişkilendirmeyi ve ardından bir transformer kod çözücü kullanarak metin oluşturmayı içerir. 

Çapraz Dikkat ile Çok Modlu Birleştirme

Çapraz dikkat ile çok modlu birleştirme, önceden eğitilmiş bir Görsel Dil Modelinin görsel verileri anlama ve işleme yeteneğini geliştiren bir tekniktir. Modele çapraz dikkat katmanları eklenerek çalışır, bu da aynı anda hem görsel hem de metinsel bilgilere dikkat etmesini sağlar. 

İşte nasıl çalışır: 

  • Bir görseldeki temel nesneler belirlenir ve vurgulanır.
  • Vurgulanan nesneler, görsel bilgiyi modelin anlayabileceği bir formata çeviren bir görsel kodlayıcı tarafından işlenir.
  • Görsel bilgi, önceden eğitilmiş dil modelinin bilgisi kullanılarak görüntüyü yorumlayan bir kod çözücüye aktarılır.

VisualGPT, bu tekniği kullanan bir model için iyi bir örnektir. Modelin kaybolan gradyanlar olarak adlandırılan yaygın bir sorundan kaçınmasına yardımcı olan, kendi kendini yeniden canlandıran aktivasyon birimi (SRAU) adlı özel bir özellik içerir. Kaybolan gradyanlar, modellerin eğitim sırasında önemli bilgileri kaybetmesine neden olabilir, ancak SRAU modelin performansını güçlü tutar. 

__wf_reserved_inherit
Şekil 4. VisualGPT model mimarisi.

Görüntü dil modellerinin uygulamaları

Görüntü Dil Modelleri çeşitli sektörlerde etki yaratıyor. E-ticaret platformlarını geliştirmekten interneti daha erişilebilir hale getirmeye kadar, VLM'lerin potansiyel kullanımları heyecan verici. Şimdi bu uygulamalardan bazılarını keşfedelim.

Ürün açıklamaları oluşturma

Çevrimiçi alışveriş yaparken, her ürünün ayrıntılı açıklamalarını görürsünüz, ancak bu açıklamaları oluşturmak zaman alıcı olabilir. VLM'ler, bu açıklamaların oluşturulmasını otomatikleştirerek bu süreci kolaylaştırır. Çevrimiçi perakendeciler, Görüntü Dil Modellerini kullanarak doğrudan ürün görsellerinden ayrıntılı ve doğru açıklamalar oluşturabilir. 

Yüksek kaliteli ürün açıklamaları, arama motorlarının açıklamada belirtilen belirli özelliklere göre ürünleri tanımlamasına yardımcı olur. Örneğin, "uzun kollu" ve "pamuklu yaka" içeren bir açıklama, müşterilerin "uzun kollu pamuklu gömlek" bulmasını kolaylaştırır. Ayrıca müşterilerin istediklerini hızlı bir şekilde bulmalarına yardımcı olur ve bu da satışları ve müşteri memnuniyetini artırır.

__wf_reserved_inherit
Şekil 5. Yapay zeka tarafından oluşturulan bir ürün açıklaması örneği. 

Üretken Yapay Zeka modelleri, BLIP-2 gibi, ürün özelliklerini doğrudan görsellerden tahmin edebilen gelişmiş VLM'lere örnektir. BLIP-2, e-ticaret ürünlerini doğru bir şekilde anlamak ve tanımlamak için çeşitli bileşenler kullanır. Bir görüntü kodlayıcı ile ürünün görsel yönlerini işleyip anlayarak başlar. Ardından, bir sorgulama dönüştürücüsü bu görsel bilgiyi belirli sorular veya görevler bağlamında yorumlar. Son olarak, bir büyük dil modeli ayrıntılı ve doğru ürün açıklamaları oluşturur.

İnterneti daha erişilebilir hale getirmek

Görüntü Dili Modelleri (Vision Language Models - VLM), özellikle görme engelli bireyler için, resim açıklamaları yoluyla interneti daha erişilebilir hale getirebilir. Geleneksel olarak, kullanıcıların web siteleri ve sosyal medyadaki görsel içeriklerin açıklamalarını girmesi gerekir. Örneğin, Instagram'da bir paylaşım yaptığınızda, ekran okuyucular için alternatif metin ekleyebilirsiniz. Ancak, VLM'ler bu süreci otomatik hale getirebilir. 

Bir VLM, bir kanepede oturan bir kedi resmi gördüğünde, "Bir kanepede oturan kedi" şeklinde bir açıklama oluşturarak, sahneyi görme engelli kullanıcılar için netleştirebilir. VLM'ler, görüntü-açıklama çiftlerinden birkaç örnekten öğrendikleri few-shot prompting (az örnekle yönlendirme) ve karmaşık sahneleri mantıksal olarak parçalamalarına yardımcı olan chain-of-thought prompting (düşünce zinciriyle yönlendirme) gibi teknikler kullanır. Bu teknikler, oluşturulan açıklamaları daha tutarlı ve ayrıntılı hale getirir.

__wf_reserved_inherit
Şekil 6. Yapay zeka kullanarak resim açıklamaları oluşturma.

Bu doğrultuda, Google'ın Chrome'daki "Google'dan Resim Açıklamaları Al" özelliği, alt metni olmayan resimler için otomatik olarak açıklamalar oluşturur. Bu yapay zeka tarafından oluşturulan açıklamalar, insanlar tarafından yazılanlar kadar ayrıntılı olmasa da, yine de değerli bilgiler sağlar.

Görüntü Dili Modellerinin Faydaları ve Sınırlamaları

Görüntü Dili Modelleri (VLMs), görsel ve metinsel verileri birleştirerek birçok avantaj sunar. Başlıca faydalarından bazıları şunlardır:

  • Daha İyi İnsan-Makine Etkileşimi: Sanal asistanları, sohbet robotlarını ve robotik sistemleri geliştirerek, sistemlerin hem görsel hem de metinsel girdileri anlamasını ve bunlara yanıt vermesini sağlayın.
  • Gelişmiş Tanılama ve Analiz: Görüntüleri analiz ederek ve açıklamalar oluşturarak tıbbi alanda yardımcı olun, sağlık uzmanlarına ikinci görüşler ve anomali tespiti konusunda destek sağlayın.
  • İnteraktif Hikaye Anlatımı ve Eğlence: Oyun ve sanal gerçeklikte kullanıcı deneyimlerini iyileştirmek için görsel ve metinsel girdileri birleştirerek ilgi çekici anlatılar oluşturun.

Etkileyici yeteneklerine rağmen, Görüntü Dili Modelleri de bazı sınırlamalarla birlikte gelir. VLM'ler söz konusu olduğunda akılda tutulması gereken bazı şeyler şunlardır:

  • Yüksek Hesaplama Gereksinimleri: VLM'leri eğitmek ve dağıtmak, önemli miktarda hesaplama kaynağı gerektirir, bu da onları maliyetli ve daha az erişilebilir kılar.
  • Veri Bağımlılığı ve Yanlılık: VLM'ler, çeşitli olmayan veya yanlı veri kümeleri üzerinde eğitilirse, basmakalıp yargıları ve yanlış bilgileri sürdürebilecek yanlı sonuçlar üretebilir.
  • Sınırlı Bağlam Anlayışı: VLM'ler büyük resmi veya bağlamı anlamakta zorlanabilir ve aşırı basitleştirilmiş veya yanlış çıktılar üretebilir.

Önemli çıkarımlar

Görüntü Dili Modelleri, e-ticaret ve sağlık hizmetleri gibi birçok alanda inanılmaz potansiyele sahiptir. Görsel ve metinsel verileri birleştirerek inovasyonu teşvik edebilir ve endüstrileri dönüştürebilirler. Ancak, bu teknolojileri sorumlu ve etik bir şekilde geliştirmek, adil bir şekilde kullanılmalarını sağlamak için çok önemlidir. VLM'ler gelişmeye devam ettikçe, görüntü tabanlı arama ve yardımcı teknolojiler gibi görevleri iyileştireceklerdir. 

Yapay zeka hakkında daha fazla bilgi edinmek için topluluğumuza katılın! GitHub depomuzu keşfederek, yapay zekayı üretim ve sağlık hizmetleri gibi endüstrilerde yenilikçi çözümler oluşturmak için nasıl kullandığımızı görün. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı