Görsel dil modellerini ve uygulamalarını anlama
Görsel dil modelleri hakkında bilgi edin, nasıl çalıştıklarını ve yapay zekadaki çeşitli uygulamalarını öğren. Bu modellerin görsel ve dil yeteneklerini nasıl birleştirdiğini keşfet.

GPT-4o modelinin görüntüleri kelimelerle nasıl anlayıp tanımlayabildiğini önceki bir makalemizde incelemiştik. Aynı yeteneği Google Gemini ve Claude 3 gibi diğer yeni modellerde de görüyoruz. Bugün, Görüntü Dili Modellerinin (Vision Language Models) nasıl çalıştığını ve görsel verilerle metinsel verileri nasıl birleştirdiklerini açıklamak için bu konunun derinliklerine iniyoruz.
Bu modeller, fotoğraflar için ayrıntılı altyazılar oluşturma, görüntüler hakkında soruları yanıtlama ve hatta metinsel açıklamalara dayalı yeni görsel içerikler yaratma gibi bir dizi etkileyici görevi yerine getirmek için kullanılabilir. Görüntü Dili Modelleri, görsel ve dilsel bilgileri sorunsuz bir şekilde entegre ederek teknolojiyle etkileşim kurma ve dünyayı anlama biçimimizi değiştiriyor.
Link to this sectionGörüntü dili modelleri nasıl çalışır?#
Görüntü Dili Modellerinin (VLM) nerelerde kullanılabileceğine bakmadan önce, ne olduklarını ve nasıl çalıştıklarını anlayalım. VLM'ler, hem görüntüleri hem de metinleri işlemek için vizyon ve dil modellerinin yeteneklerini birleştiren gelişmiş yapay zeka modelleridir. Bu modeller, resimleri metinsel açıklamalarıyla birlikte alır ve ikisi arasında bağlantı kurmayı öğrenir. Modelin vizyon kısmı görüntülerdeki ayrıntıları yakalarken, dil kısmı metni anlar. Bu ekip çalışması, VLM'lerin hem görüntüleri hem de metinleri anlayıp analiz etmesini sağlar.
İşte Görüntü Dili Modellerinin temel yetenekleri:
- Görüntü Altyazılama (Image Captioning): Görüntülerin içeriğine dayalı açıklayıcı metinler oluşturma.
- Görsel Soru Cevaplama (VQA): Bir görüntünün içeriğiyle ilgili soruları yanıtlama.
- Metinden Görüntü Oluşturma: Metinsel açıklamalara dayalı görüntüler yaratma.
- Görüntü-Metin Erişimi: Belirli bir metin sorgusu için ilgili görüntüleri bulma ve bunun tersi.
- Çok Modlu İçerik Oluşturma: Yeni içerik oluşturmak için görüntüleri ve metinleri birleştirme.
- Sahne Anlama ve Nesne Tespiti: Bir görüntüdeki nesneleri ve ayrıntıları tanımlama ve kategorize etme.

Şekil 1. Bir görüntü dili modelinin yeteneklerine bir örnek.
Şimdi, CLIP, SimVLM ve VisualGPT gibi bilinen modeller tarafından kullanılan yaygın VLM mimarilerini ve öğrenme tekniklerini keşfedelim.
Link to this sectionKarşılaştırmalı öğrenme (Contrastive learning)#
Karşılaştırmalı öğrenme, modellerin veri noktaları arasındaki farkları karşılaştırarak öğrenmelerine yardımcı olan bir tekniktir. Örneklerin birbirine ne kadar benzer veya farklı olduğunu hesaplar ve bu farkları ölçen karşılaştırmalı kaybı en aza indirmeyi amaçlar. Özellikle, etiketli örneklerden oluşan küçük bir kümenin modeli yeni, görülmemiş verileri etiketlemeye yönlendirdiği yarı denetimli öğrenmede kullanışlıdır. Örneğin, bir kedinin neye benzediğini anlamak için model, onu benzer kedi görüntüleri ve köpek görüntüleri ile karşılaştırır. Yüz yapısı, vücut büyüklüğü ve kürk gibi özellikleri tanımlayarak, karşılaştırmalı öğrenme teknikleri bir kedi ile köpek arasındaki farkı ayırt edebilir.

Şekil 2. Karşılaştırmalı öğrenme nasıl çalışır.
CLIP, metin açıklamalarını görüntülerle eşleştirmek için karşılaştırmalı öğrenmeyi kullanan bir Görüntü Dili Modelidir. Üç basit adımda çalışır. İlk olarak, modelin hem metni hem de görüntüleri anlayan kısımlarını eğitir. İkinci olarak, bir veri kümesindeki kategorileri metin açıklamalarına dönüştürür. Üçüncü olarak, belirli bir görüntü için en iyi eşleşen açıklamayı tanımlar. Bu yöntem sayesinde CLIP modeli, özel olarak eğitilmediği görevler için bile doğru tahminler yapabilir.
Link to this sectionPrefixLM#
PrefixLM, modelleri eğitmek için kullanılan bir Doğal Dil İşleme (NLP) tekniğidir. Bir cümlenin bir kısmıyla (bir önek/prefix) başlar ve bir sonraki kelimeyi tahmin etmeyi öğrenir. Görüntü Dili Modellerinde PrefixLM, modelin bir görüntüye ve verilen bir metne dayanarak sonraki kelimeleri tahmin etmesine yardımcı olur. Bir görüntüyü küçük parçalara (patch) ayıran ve her birini görüntünün bir kısmını temsil edecek şekilde sırayla işleyen bir Vision Transformer (ViT) kullanır.

Şekil 3. PrefixLM tekniğini kullanan bir VLM eğitme örneği.
SimVLM, PrefixLM öğrenme tekniğini kullanan bir VLM'dir. Önceki modellere kıyasla daha basit bir Transformer mimarisi kullanır ancak çeşitli testlerde daha iyi sonuçlar elde eder. Model mimarisi, bir transformer kodlayıcı kullanarak görüntüleri metin önekleriyle ilişkilendirmeyi öğrenmeyi ve ardından bir transformer kod çözücü kullanarak metin oluşturmayı içerir.
Link to this sectionÇapraz Dikkat (Cross-Attention) ile Çok Modlu Birleştirme#
Çapraz dikkat ile çok modlu birleştirme, önceden eğitilmiş bir Görüntü Dili Modelinin görsel verileri anlama ve işleme yeteneğini geliştiren bir tekniktir. Modele çapraz dikkat katmanları ekleyerek çalışır; bu da modelin aynı anda hem görsel hem de metinsel bilgilere odaklanmasını sağlar.
İşte nasıl çalıştığı:
- Bir görüntüdeki önemli nesneler tanımlanır ve vurgulanır.
- Vurgulanan nesneler, görsel bilgiyi modelin anlayabileceği bir formata dönüştüren bir görsel kodlayıcı tarafından işlenir.
- Görsel bilgi, görüntüyü önceden eğitilmiş dil modelinin bilgisini kullanarak yorumlayan bir kod çözücüye aktarılır.
VisualGPT, bu tekniği kullanan iyi bir model örneğidir. Kendi kendini canlandıran aktivasyon birimi (SRAU) adı verilen ve modelin kaybolan gradyanlar (vanishing gradients) adı verilen yaygın bir sorundan kaçınmasına yardımcı olan özel bir özellik içerir. Kaybolan gradyanlar, modellerin eğitim sırasında önemli bilgileri kaybetmesine neden olabilir, ancak SRAU modelin performansını güçlü tutar.

Şekil 4. VisualGPT model mimarisi.
Link to this sectionGörüntü dili modellerinin uygulamaları#
Görüntü Dili Modelleri çeşitli sektörlerde etki yaratıyor. E-ticaret platformlarını geliştirmekten interneti daha erişilebilir kılmaya kadar, VLM'lerin potansiyel kullanımları heyecan verici. Şimdi bu uygulamalardan bazılarını keşfedelim.
Link to this sectionÜrün açıklamaları oluşturma#
İnternetten alışveriş yaparken her ürünün ayrıntılı açıklamalarını görürsünüz, ancak bu açıklamaları oluşturmak zaman alıcı olabilir. VLM'ler, bu açıklamaların oluşturulmasını otomatikleştirerek süreci kolaylaştırır. Çevrimiçi perakendeciler, Görüntü Dili Modellerini kullanarak ürün resimlerinden doğrudan ayrıntılı ve doğru açıklamalar oluşturabilir.
Yüksek kaliteli ürün açıklamaları, arama motorlarının ürünleri açıklamada belirtilen belirli özelliklere göre tanımlamasına yardımcı olur. Örneğin, "uzun kollu" ve "pamuklu yaka" içeren bir açıklama, müşterilerin bir "uzun kollu pamuklu gömlek" ürününü daha kolay bulmasına yardımcı olur. Ayrıca müşterilerin istediklerini hızlı bir şekilde bulmalarını sağlar ve bu da satışları ve müşteri memnuniyetini artırır.

Şekil 5. Yapay zeka tarafından oluşturulan ürün açıklaması örneği.
Üretken Yapay Zeka modelleri, BLIP-2 gibi, ürün özelliklerini doğrudan görüntülerden tahmin edebilen gelişmiş VLM örnekleridir. BLIP-2, e-ticaret ürünlerini doğru bir şekilde anlamak ve tanımlamak için birkaç bileşen kullanır. Ürünün görsel yönlerini bir görüntü kodlayıcı ile işleyip anlayarak başlar. Ardından, bir sorgulama transformer'ı bu görsel bilgiyi belirli sorular veya görevler bağlamında yorumlar. Son olarak, bir büyük dil modeli ayrıntılı ve doğru ürün açıklamaları oluşturur.
Link to this sectionİnterneti daha erişilebilir kılma#
Görüntü Dili Modelleri, özellikle görme engelli bireyler için görüntü altyazılama yoluyla interneti daha erişilebilir hale getirebilir. Geleneksel olarak, kullanıcıların web sitelerindeki ve sosyal medyadaki görsel içeriğin açıklamalarını girmeleri gerekir. Örneğin, Instagram'da bir gönderi paylaştığınızda, ekran okuyucular için alternatif metin ekleyebilirsiniz. Ancak VLM'ler bu süreci otomatikleştirebilir.
Bir VLM, kanepede oturan bir kedi görüntüsü gördüğünde, "Kanepede oturan bir kedi" altyazısını oluşturabilir ve sahneyi görme engelli kullanıcılar için netleştirebilir. VLM'ler, birkaç görüntü-altyazı çiftinden öğrendikleri few-shot prompting ve karmaşık sahneleri mantıksal olarak parçalamalarına yardımcı olan chain-of-thought prompting gibi teknikler kullanır. Bu teknikler, oluşturulan altyazıları daha tutarlı ve ayrıntılı hale getirir.

Şekil 6. Görüntü altyazıları oluşturmak için yapay zeka kullanma.
Bu amaçla, Google'ın Chrome'daki "Google'dan Görüntü Açıklamaları Alın" özelliği, alt metni olmayan görüntüler için otomatik olarak açıklamalar oluşturur. Bu yapay zeka tarafından oluşturulan açıklamalar insanlar tarafından yazılanlar kadar ayrıntılı olmayabilse de, yine de değerli bilgiler sağlarlar.
Link to this sectionGörüntü Dili Modellerinin faydaları ve sınırlamaları#
Görüntü Dili Modelleri (VLM), görsel ve metinsel verileri birleştirerek birçok avantaj sunar. Temel faydalardan bazıları şunlardır:
- Daha İyi İnsan-Makine Etkileşimi: Sistemlerin hem görsel hem de metinsel girdileri anlayıp yanıt vermesini sağlayarak sanal asistanları, sohbet botlarını ve robotik sistemleri geliştirir.
- Gelişmiş Tanı ve Analiz: Görüntüleri analiz edip açıklamalar oluşturarak tıp alanına yardımcı olur; sağlık profesyonellerini ikinci görüşler ve anomali tespiti konularında destekler.
- Etkileşimli Hikaye Anlatımı ve Eğlence: Oyun ve sanal gerçeklikte kullanıcı deneyimlerini iyileştirmek için görsel ve metinsel girdileri birleştirerek ilgi çekici anlatılar oluşturur.
Etkileyici yeteneklerine rağmen, Görüntü Dili Modelleri belirli sınırlamalarla da gelir. VLM'ler söz konusu olduğunda aklınızda bulundurmanız gereken bazı noktalar şunlardır:
- Yüksek Hesaplama Gereksinimleri: VLM'leri eğitmek ve dağıtmak, önemli hesaplama kaynakları gerektirir, bu da onları maliyetli ve daha az erişilebilir kılar.
- Veri Bağımlılığı ve Önyargı: VLM'ler, çeşitlilik içermeyen veya önyargılı veri kümeleri üzerinde eğitilirlerse önyargılı sonuçlar üretebilirler, bu da klişeleri ve yanlış bilgileri sürdürebilir.
- Sınırlı Bağlam Anlama: VLM'ler büyük resmi veya bağlamı anlamakta zorlanabilir ve aşırı basitleştirilmiş veya yanlış çıktılar üretebilir.
Link to this sectionÖne çıkanlar#
Görüntü Dili Modelleri, e-ticaret ve sağlık hizmetleri gibi birçok alanda inanılmaz bir potansiyele sahiptir. Görsel ve metinsel verileri birleştirerek inovasyonu teşvik edebilir ve endüstrileri dönüştürebilirler. Ancak, bu teknolojileri adil bir şekilde kullanılmalarını sağlamak için sorumlu ve etik bir şekilde geliştirmek şarttır. VLM'ler gelişmeye devam ettikçe, görüntü tabanlı arama ve yardımcı teknolojiler gibi görevleri iyileştireceklerdir.
To keep learning about AI, connect with our community! Explore our GitHub repository to see how we are using AI to create innovative solutions in industries like manufacturing and healthcare. 🚀






