Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Google'ın PaliGemma 2'si: Gelişmiş VLM modellerine dair analizler

Abirami Vina

4 dakika okuma

6 Aralık 2024

Google'ın yeni vizyon dil modelleri PaliGemma 2'ye daha yakından bakarken bize katılın. Bu modeller hem görüntüleri hem de metinleri anlamanıza ve analiz etmenize yardımcı olabilir.

5 Aralık 2024'te Google, en son görüntü-dil modeli (VLM) olan PaliGemma 2'yi tanıttı. PaliGemma 2, resim ve metni birleştiren, örneğin başlık oluşturma, görsel soruları yanıtlama ve görsellerdeki nesneleri algılama gibi görevleri yerine getirmek için tasarlanmıştır. 

Çok dilli altyazı ve nesne tanıma için zaten güçlü bir araç olan orijinal PaliGemma üzerine inşa edilen PaliGemma 2, çeşitli önemli iyileştirmeler getiriyor. Bunlar arasında daha büyük model boyutları, daha yüksek çözünürlüklü görüntüler için destek ve karmaşık görsel görevlerde daha iyi performans yer alıyor. Bu yükseltmeler, onu çok çeşitli kullanımlar için daha da esnek ve etkili hale getiriyor.

Bu makalede, PaliGemma 2'ye, nasıl çalıştığına, temel özelliklerine ve nerelerde öne çıktığı uygulamalara daha yakından bakacağız. Hadi başlayalım!

Gemma 2'den PaliGemma 2'ye

PaliGemma 2, iki temel teknoloji üzerine kurulmuştur: SigLIP vizyon kodlayıcı ve Gemma 2 dil modeli. SigLIP kodlayıcı, resimler veya videolar gibi görsel verileri işler ve modelin analiz edebileceği özelliklere ayırır. Bu sırada Gemma 2, metinleri işleyerek modelin çok dilli dili anlamasını ve oluşturmasını sağlar. Birlikte, görsel ve metin bilgilerini sorunsuz bir şekilde yorumlamak ve bağlamak için tasarlanmış bir VLM oluştururlar.

PaliGemma 2'yi büyük bir adım ileriye taşıyan şey, ölçeklenebilirliği ve çok yönlülüğüdür. Orijinal sürümden farklı olarak PaliGemma 2, üç boyutta gelir: 3 milyar (3B), 10 milyar (10B) ve 28 milyar (28B) parametre. Bu parametreler, modelin iç ayarları gibidir ve verileri etkili bir şekilde öğrenmesine ve işlemesine yardımcı olur. Ayrıca, farklı görüntü çözünürlüklerini (örneğin, hızlı görevler için 224 x 224 piksel ve ayrıntılı analiz için 896 x 896) destekleyerek çeşitli uygulamalar için uyarlanabilir hale getirir.

Şekil 1. PaliGemma 2'ye Genel Bir Bakış.

Gemma 2'nin gelişmiş dil yeteneklerini SigLIP'in görüntü işleme özellikleriyle birleştirmek, PaliGemma 2'yi önemli ölçüde daha akıllı hale getirir. Şu gibi görevleri yerine getirebilir:

  • Görüntü veya videoları altyazılandırma: Model, görsellerin ayrıntılı metinsel açıklamalarını oluşturarak otomatik olarak başlık oluşturmak için kullanışlı hale getirir.
  • Görsel soru yanıtlama: PaliGemma 2, bir sahnedeki nesneleri, kişileri veya eylemleri tanımlamak gibi görüntülere dayalı soruları yanıtlayabilir.
  • Nesne tanıma: Bir görüntüdeki nesneleri tanımlar ve etiketler; örneğin, bir fotoğrafta bir kedi, bir masa veya bir araba arasında ayrım yapar.

PaliGemma 2, görüntüleri ve metinleri ayrı ayrı işlemenin ötesine geçerek, onları anlamlı yollarla bir araya getirir. Örneğin, bir sahnede "Kedi masanın üzerinde oturuyor" gibi ilişkileri anlayabilir veya ünlü bir simge yapıyı tanımak gibi bağlam eklerken nesneleri tanımlayabilir. 

Google’ın PaliGemma 2 VLM modelleri nasıl çalışır?

Ardından, PaliGemma 2'nin görsel ve metinsel verileri nasıl işlediğini daha iyi anlamak için aşağıdaki resimde gösterilen grafiği kullanarak bir örneği inceleyeceğiz. Diyelim ki bu grafiği yüklüyorsunuz ve modele "Bu grafik neyi temsil ediyor?" diye soruyorsunuz.

Şekil 2. PaliGemma 2'nin yeteneklerine bir örnek.

Süreç, görüntüleri analiz etmek ve temel özellikleri çıkarmak için PaliGemma 2'nin SigLIP görme kodlayıcısı ile başlar. Bir grafik için bu, eksenler, veri noktaları ve etiketler gibi öğelerin tanımlanmasını içerir. Kodlayıcı, hem geniş kalıpları hem de ince ayrıntıları yakalamak için eğitilmiştir. Ayrıca, görüntüye gömülü herhangi bir metni algılamak ve işlemek için optik karakter tanıma (OCR) kullanır. Bu görsel özellikler, modelin işleyebileceği sayısal temsiller olan belirteçlere dönüştürülür. Bu belirteçler daha sonra, metinsel verilerle sorunsuz bir şekilde birleştirilebilmelerini sağlayan bir teknik olan doğrusal bir projeksiyon katmanı kullanılarak ayarlanır.

Aynı zamanda, Gemma 2 dil modeli, anlamını ve amacını belirlemek için beraberindeki sorguyu işler. Sorgudaki metin belirteçlere dönüştürülür ve bunlar, görsel ve metinsel verileri birbirine bağlayan birleşik bir biçim olan bir çok modlu gösterim oluşturmak için SigLIP'ten gelen görsel belirteçlerle birleştirilir. 

Bu entegre gösterimi kullanan PaliGemma 2, cevabı adım adım, otoregresif kod çözme yoluyla oluşturur. Bu yöntem, modelin cevabın bir bölümünü, zaten işlediği bağlama dayanarak tahmin ettiği bir yöntemdir. 

PaliGemma 2'nin temel yetenekleri

Nasıl çalıştığını anladığımıza göre, PaliGemma 2'yi güvenilir bir görme-dil modeli yapan temel özellikleri keşfedelim:

  • İnce ayar esnekliği: Görüntü başlığı oluşturma, uzamsal akıl yürütme ve tıbbi görüntüleme gibi uygulamalarda iyi performans göstererek belirli veri kümelerine ve görevlere kolayca uyum sağlar.
  • Çeşitli eğitim verileri: WebLI ve OpenImages gibi veri kümeleri üzerinde eğitilmiş olup, güçlü nesne tanıma yetenekleri ve çok dilli çıktı özellikleri sağlar.
  • OCR entegrasyonu: Görüntülerden metin çıkarmak ve yorumlamak için optik karakter tanıma içerir, bu da onu belge analizi ve diğer metin tabanlı görevler için ideal hale getirir.
  • Çok dilli çıktılar: Küresel uygulamalar için ideal olan, birden fazla dilde başlıklar ve yanıtlar oluşturur.
  • Araçlarla entegrasyon: Hugging Face Transformers, PyTorch ve Keras gibi çerçevelerle uyumludur, bu da kolay dağıtım ve deneme olanağı sağlar.

PaliGemma 2 ve PaliGemma'yı karşılaştırma: Neler geliştirildi?

PaliGemma'nın ilk versiyonunun mimarisine bir göz atmak, PaliGemma 2'deki geliştirmeleri görmenin iyi bir yoludur. En dikkat çekici değişikliklerden biri, orijinal Gemma dil modelinin, hem performans hem de verimlilikte önemli iyileştirmeler getiren Gemma 2 ile değiştirilmesidir. 

9B ve 27B parametre boyutlarında mevcut olan Gemma 2, dağıtım maliyetlerini düşürürken sınıfının lideri doğruluk ve hız sağlamak üzere tasarlanmıştır. Bunu, güçlü GPU'lardan daha erişilebilir yapılandırmalara kadar çeşitli donanım kurulumlarında çıkarım verimliliği için optimize edilmiş yeniden tasarlanmış bir mimari aracılığıyla başarır.

Şekil 3. PaliGemma 2'nin İlk Versiyonuna Geriye Dönüş.

Sonuç olarak, PaliGemma 2 oldukça doğru bir modeldir. PaliGemma 2'nin 10B sürümü, orijinal modelin 34,3 olan Non-Entailment Sentence (NES) puanına kıyasla daha düşük bir 20,3 NES puanı elde eder, yani çıktılarında daha az olgusal hata bulunur. Bu gelişmeler, PaliGemma 2'yi ayrıntılı altyazı oluşturmadan görsel soru cevaplamaya kadar daha geniş bir uygulama yelpazesine daha ölçeklenebilir, hassas ve uyarlanabilir hale getirir.

PaliGemma 2 Uygulamaları: VLM modelleri için gerçek dünya kullanımları

PaliGemma 2, görsel ve dil anlama yeteneklerini kusursuz bir şekilde birleştirerek sektörleri yeniden tanımlama potansiyeline sahiptir. Örneğin, erişilebilirlik açısından, nesnelerin, sahnelerin ve mekansal ilişkilerin ayrıntılı açıklamalarını oluşturarak görme engelli bireylere önemli yardımlar sağlayabilir. Bu özellik, kullanıcıların çevrelerini daha iyi anlamalarına yardımcı olur ve günlük işlerde daha fazla bağımsızlık sunar. 

Şekil 4. PaliGemma 2, dünyayı daha erişilebilir bir yer haline getirebilir.

Erişilebilirliğe ek olarak, PaliGemma 2 çeşitli sektörlerde de etki yaratıyor, bunlar arasında:

  • E-ticaret: Model, görüntülerdeki öğeleri analiz ederek ve açıklayarak ürün kategorizasyonunu geliştirir, bu da envanter yönetimini basitleştirir ve kullanıcılar için arama deneyimini iyileştirir.
  • Sağlık hizmetleri: Daha doğru ve bilinçli teşhisler sağlamak için klinik notların yanı sıra X-ışınları ve MR'lar gibi tıbbi görüntülemeleri yorumlayarak tıp uzmanlarını destekler.
  • Eğitim: PaliGemma 2, eğitimcilerin görüntüler için başlıklar oluşturarak ve bağlamsal bilgiler sağlayarak açıklayıcı ve erişilebilir öğrenme materyalleri oluşturmalarına yardımcı olur.
  • İçerik Oluşturma: Model, multimedya içeriği için başlık ve görsel açıklamalar oluşturma sürecini otomatikleştirerek içerik oluşturucular için zaman tasarrufu sağlar.

Kendiniz deneyin: PaliGemma 2

PaliGemma 2'yi denemek için Hugging Face'in interaktif demosuyla başlayabilirsiniz. Bu demo, görüntü açıklaması ve görsel soru cevaplama gibi görevlerdeki yeteneklerini keşfetmenizi sağlar. Sadece bir görüntü yükleyin ve model hakkında sorular sorun veya sahnenin bir açıklamasını isteyin.

Şekil 5. PaliGemma 2 Demosu (Kaynak: huggingface).

Daha derinlemesine bilgi edinmek isterseniz, işte uygulamalı olarak nasıl başlayabileceğiniz:

  • Önceden eğitilmiş modeller: Hugging Face ve Kaggle gibi platformlardan önceden eğitilmiş modellere ve kodlara erişebilirsiniz. Bu kaynaklar, modelle çalışmaya başlamak için ihtiyacınız olan her şeyi sağlar.
  • Notebook'lar: PaliGemma 2'ye aşina olmanız için kapsamlı dokümantasyon ve örnek notebook'lar bulunmaktadır. Çıkarım örnekleriyle başlayabilir ve modeli belirli görevler için kendi veri kümeniz üzerinde ince ayar yaparak deneyebilirsiniz.
  • Entegrasyonlar: PaliGemma 2, yaygın olarak kullanılan Hugging Face Transformers, Keras, PyTorch, JAX ve Gemma.cpp gibi framework'lerle uyumludur ve mevcut iş akışlarınıza zahmetsizce entegre etmenizi sağlar.

Google’ın PaliGemma 2'sinin avantajları ve dezavantajları

PaliGemma 2'yi kullanmaya nasıl başlayacağımızı anladıktan sonra, bu modelleri kullanırken akılda tutulması gereken temel güçlü ve zayıf yönlerine daha yakından bakalım. 

İşte PaliGemma 2'yi bir görme-dil modeli olarak öne çıkaran özellikler:

  • Verimlilik kazanımları: Gemma 2'nin optimize edilmiş mimarisinden yararlanan PaliGemma 2, dağıtım maliyetlerini en aza indirirken yüksek performans sunar.
  • Gelişmiş güvenlik özellikleri: PaliGemma 2, önyargıları azaltmak için ön eğitim verilerinin güçlü bir şekilde filtrelenmesi ve güvenlik kriterlerine karşı titiz bir değerlendirme gibi eğitim sürecinde önemli güvenlik iyileştirmeleri içerir.
  • Daha küçük konfigürasyonlar için düşük gecikme: 3B modeli, daha hızlı çıkarım süreleri sunarak e-ticaret ürün önerileri veya canlı destek sistemleri gibi hızın kritik olduğu kullanım durumları için uygundur.

Bu arada, PaliGemma 2'nin karşılaşabileceği bazı sınırlamalar şunlardır:

  • Gecikme (Latency): Güçlü olmasına rağmen, daha büyük modeller, özellikle gerçek zamanlı etkileşimli AI sistemleri gibi acil yanıtlar gerektiren görevler için dağıtıldığında gecikme sorunlarıyla karşılaşabilir.
  • Büyük veri kümelerine bağımlılık: PaliGemma 2'nin performansı, eğitim veri kümelerinin kalitesi ve çeşitliliği ile yakından bağlantılıdır; bu da eğitim verilerinde yer almayan yetersiz temsil edilen alanlarda veya dillerde etkinliğini sınırlayabilir.
  • Yüksek kaynak gereksinimleri: Optimizasyonlara rağmen, 10B ve 28B parametre sürümleri önemli miktarda işlem gücü gerektirir ve bu da onları sınırlı kaynaklara sahip daha küçük kuruluşlar için daha az erişilebilir hale getirir.

Önemli çıkarımlar

PaliGemma 2, geliştirilmiş ölçeklenebilirlik, ince ayar esnekliği ve doğruluk sunan, vizyon-dil modellemesinde büyüleyici bir gelişmedir. Erişilebilirlik çözümlerinden e-ticarete, sağlık hizmetleri teşhislerinden eğitime kadar çeşitli uygulamalar için değerli bir araç olabilir. 

Hesaplama gereksinimleri ve yüksek kaliteli verilere bağımlılık gibi sınırlamaları olsa da, güçlü yönleri onu görsel ve metinsel verileri entegre eden karmaşık görevlerin üstesinden gelmek için pratik bir seçim haline getiriyor. PaliGemma 2, araştırmacılar ve geliştiriciler için yapay zekanın çok modlu uygulamalardaki potansiyelini keşfetmek ve genişletmek için sağlam bir temel sağlayabilir.

GitHub depomuza ve topluluğumuza göz atarak yapay zeka sohbetinin bir parçası olun. Yapay zekanın tarım ve sağlık hizmetlerinde nasıl ilerleme kaydettiğini okuyun! 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı