YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Yapay Zeka Görüşü

Google'ın PaliGemma 2 modeli: Gelişmiş VLM modellerine dair içgörüler

Google'ın yeni görü dil modelleri PaliGemma 2'ye yakından bakarken bize katıl. Bu modeller hem görüntüleri hem de metinleri anlama ve analiz etmeye yardımcı olabilir.

ABAbirami Vina
4 min read
Google'ın PaliGemma 2 görü-dil modeli

5 Aralık 2024 tarihinde Google, en son görüntü-dil modeli (VLM) sürümü olan PaliGemma 2'yi tanıttı. PaliGemma 2; altyazı oluşturma, görsel soruları yanıtlama ve görsellerdeki nesneleri tespit etme gibi görüntü ve metni birleştiren görevleri yerine getirmek üzere tasarlandı.

Çok dilli altyazı ve nesne tanıma konusunda zaten güçlü bir araç olan orijinal PaliGemma üzerine inşa edilen PaliGemma 2, birçok önemli iyileştirmeyi beraberinde getiriyor. Bunlar arasında daha büyük model boyutları, daha yüksek çözünürlüklü görüntü desteği ve karmaşık görsel görevlerde daha iyi performans yer alıyor. Bu yükseltmeler, onu çok çeşitli kullanımlar için daha da esnek ve etkili kılıyor.

Bu makalede PaliGemma 2'ye, nasıl çalıştığına, temel özelliklerine ve öne çıktığı uygulamalara daha yakından bakacağız. Haydi başlayalım!

Link to this sectionGemma 2'den PaliGemma 2'ye#

PaliGemma 2, iki temel teknoloji üzerine inşa edilmiştir: SigLIP görüntü kodlayıcı ve Gemma 2 dil modeli. SigLIP kodlayıcı, görüntüler veya videolar gibi görsel verileri işler ve bunları modelin analiz edebileceği özelliklere ayırır. Bu sırada Gemma 2 metni yöneterek modelin çok dilli dili anlamasını ve üretmesini sağlar. Birlikte, görsel ve metin bilgilerini sorunsuz bir şekilde yorumlamak ve birbirine bağlamak için tasarlanmış bir VLM oluştururlar.

PaliGemma 2'yi ileriye doğru atılmış büyük bir adım yapan şey, ölçeklenebilirliği ve çok yönlülüğüdür. Orijinal sürümden farklı olarak PaliGemma 2, 3 milyar (3B), 10 milyar (10B) ve 28 milyar (28B) parametre olmak üzere üç boyutta gelir. Bu parametreler, verileri etkili bir şekilde öğrenmesine ve işlemesine yardımcı olan modelin iç ayarları gibidir. Ayrıca farklı görüntü çözünürlüklerini (örneğin, hızlı görevler için 224 x 224 piksel ve ayrıntılı analiz için 896 x 896) destekleyerek çeşitli uygulamalar için uyarlanabilir hale gelir.

PaliGemma 2'ye genel bakış

Şekil 1. PaliGemma 2'ye Genel Bakış.

Gemma 2'nin gelişmiş dil yeteneklerini SigLIP'in görüntü işleme becerisiyle entegre etmek, PaliGemma 2'yi önemli ölçüde daha zeki kılar. Şu gibi görevleri yerine getirebilir:

  • Görüntüleri veya videoları altyazılama: Model, görsellerin ayrıntılı metinsel açıklamalarını oluşturabilir, bu da otomatik altyazı oluşturma için kullanışlıdır.
  • Görsel soru cevaplama: PaliGemma 2; bir sahnedeki nesneleri, kişileri veya eylemleri tanımlamak gibi görüntülere dayalı soruları yanıtlayabilir.
  • Nesne tanıma: Bir fotoğraftaki kedi, masa veya araba arasında ayrım yapmak gibi bir görüntüdeki nesneleri tanımlar ve etiketler.

PaliGemma 2, görüntüleri ve metni ayrı ayrı işlemenin ötesine geçer; onları anlamlı yollarla bir araya getirir. Örneğin, bir sahnedeki ilişkileri anlayabilir; "Kedi masanın üzerinde oturuyor" gibi çıkarımlar yapabilir veya ünlü bir simgeyi tanımak gibi bağlam ekleyerek nesneleri tanımlayabilir.

Link to this sectionGoogle PaliGemma 2 VLM modelleri nasıl çalışır?#

Sırada, PaliGemma 2'nin görsel ve metinsel verileri nasıl işlediğini daha iyi anlamak için aşağıdaki görselde gösterilen grafiği kullanan bir örnekten geçeceğiz. Diyelim ki bu grafiği yükledin ve modele "Bu grafik neyi temsil ediyor?" diye sordun.

PaliGemma 2'nin yeteneklerine bir örnek

Şekil 2. PaliGemma 2'nin yeteneklerine bir örnek.

İşlem, PaliGemma 2'nin SigLIP görüntü kodlayıcısının görüntüleri analiz etmesi ve temel özellikleri çıkarmasıyla başlar. Bir grafik için bu, eksenler, veri noktaları ve etiketler gibi öğelerin tanımlanmasını içerir. Kodlayıcı, hem genel kalıpları hem de ince detayları yakalamak üzere eğitilmiştir. Ayrıca görüntüye gömülü herhangi bir metni tespit etmek ve işlemek için optik karakter tanıma (OCR) kullanır. Bu görsel özellikler, modelin işleyebileceği sayısal temsiller olan belirteçlere (token) dönüştürülür. Bu belirteçler daha sonra, metinsel verilerle sorunsuz bir şekilde birleştirilebilmelerini sağlayan bir teknik olan doğrusal yansıtma katmanı kullanılarak ayarlanır.

Aynı zamanda Gemma 2 dil modeli, anlamını ve amacını belirlemek için eşlik eden sorguyu işler. Sorgudaki metin belirteçlere dönüştürülür ve bunlar, görsel ve metinsel verileri birbirine bağlayan birleşik bir format olan çok modlu bir temsil oluşturmak için SigLIP'ten gelen görsel belirteçlerle birleştirilir.

Bu entegre temsili kullanan PaliGemma 2, modelin cevabın bir kısmını zaten işlediği bağlama göre tahmin ettiği bir yöntem olan autoregressive çözme yoluyla adım adım bir yanıt üretir.

Link to this sectionPaliGemma 2'nin temel yetenekleri#

Nasıl çalıştığını anladığımıza göre, PaliGemma 2'yi güvenilir bir görüntü-dil modeli yapan temel özellikleri keşfedelim:

  • İnce ayar esnekliği: Belirli veri kümelerine ve görevlere kolayca uyum sağlar; görüntü altyazılama, uzamsal akıl yürütme ve tıbbi görüntüleme gibi uygulamalarda iyi performans gösterir.
  • Çeşitli eğitim verileri: WebLI ve OpenImages gibi veri kümeleri üzerinde eğitilmiştir, bu da ona güçlü nesne tanıma yetenekleri ve çok dilli çıktı yetenekleri kazandırır.
  • OCR entegrasyonu: Görüntülerden metinleri ayıklamak ve yorumlamak için optik karakter tanıma özelliğini içerir, bu da onu belge analizi ve diğer metin tabanlı görevler için ideal kılar.
  • Çok dilli çıktılar: Küresel uygulamalar için ideal olan, birden fazla dilde altyazı ve yanıt üretir.
  • Araçlarla entegrasyon: Hugging Face Transformers, PyTorch ve Keras gibi çerçevelerle uyumludur, bu da kolay dağıtım ve denemeye olanak tanır.

Link to this sectionPaliGemma 2 ve PaliGemma karşılaştırması: Neler iyileştirildi?#

PaliGemma'nın ilk sürümünün mimarisine bakmak, PaliGemma 2'deki geliştirmeleri görmenin iyi bir yoludur. En dikkat çekici değişikliklerden biri, orijinal Gemma dil modelinin hem performans hem de verimlilik açısından önemli iyileştirmeler getiren Gemma 2 ile değiştirilmesidir.

9B ve 27B parametre boyutlarında mevcut olan Gemma 2, dağıtım maliyetlerini düşürürken sınıfının lideri doğruluk ve hız sağlamak üzere tasarlanmıştır. Bunu, güçlü GPU'lardan daha erişilebilir konfigürasyonlara kadar çeşitli donanım kurulumlarında çıkarım verimliliği için optimize edilmiş yeniden tasarlanmış bir mimariyle başarır.

PaliGemma'nın ilk sürümüne bir bakış

Şekil 3. PaliGemma 2'nin İlk Sürümüne Geri Bakış.

Sonuç olarak, PaliGemma 2 oldukça doğru bir modeldir. PaliGemma 2'nin 10B sürümü, orijinal modelin 34.3 puanına kıyasla 20.3'lük daha düşük bir Non-Entailment Sentence (NES) puanı elde eder, bu da çıktılarında daha az olgusal hata olduğu anlamına gelir. Bu gelişmeler, PaliGemma 2'yi ayrıntılı altyazılamadan görsel soru cevaplamaya kadar çok daha geniş bir uygulama yelpazesi için daha ölçeklenebilir, kesin ve uyarlanabilir hale getirir.

Link to this sectionPaliGemma 2 uygulamaları: VLM modelleri için gerçek dünya kullanımları#

PaliGemma 2, görsel ve dil anlayışını sorunsuz bir şekilde birleştirerek endüstrileri yeniden tanımlama potansiyeline sahiptir. Örneğin, erişilebilirlik konusunda, nesnelerin, sahnelerin ve uzamsal ilişkilerin ayrıntılı açıklamalarını oluşturarak görme engelli bireylere hayati yardım sağlayabilir. Bu yetenek, kullanıcıların çevrelerini daha iyi anlamalarına yardımcı olur ve günlük işler söz konusu olduğunda daha fazla bağımsızlık sunar.

PaliGemma 2 dünyayı daha erişilebilir bir yer haline getirebilir

Şekil 4. PaliGemma 2 dünyayı daha erişilebilir bir yer haline getirebilir.

Erişilebilirliğin yanı sıra PaliGemma 2, aşağıdakiler dahil olmak üzere çeşitli endüstrilerde etki yaratmaktadır:

  • E-ticaret: Model, görüntülerdeki öğeleri analiz edip tanımlayarak ürün kategorizasyonunu iyileştirir, bu da envanter yönetimini basitleştirir ve kullanıcılar için arama deneyimini geliştirir.
  • Sağlık: Daha doğru ve bilinçli teşhisler koymak için klinik notların yanı sıra röntgen ve MR gibi tıbbi görüntüleri yorumlayarak tıp uzmanlarını destekler.
  • Eğitim: PaliGemma 2, görseller için altyazılar oluşturarak ve bağlamsal bilgiler sağlayarak eğitimcilerin açıklayıcı ve erişilebilir öğrenme materyalleri oluşturmasına yardımcı olur.
  • İçerik Oluşturma: Model, multimedya içeriği için altyazı ve görsel açıklama oluşturma sürecini otomatikleştirerek içerik oluşturuculara zaman kazandırır.

Link to this sectionKendin dene: PaliGemma 2#

PaliGemma 2'yi denemek için Hugging Face'in etkileşimli demosundan başlayabilirsin. Bu demo, görüntü altyazılama ve görsel soru cevaplama gibi görevlerdeki yeteneklerini keşfetmeni sağlar. Sadece bir görsel yükle ve modele onunla ilgili sorular sor veya sahnenin açıklanmasını iste.

PaliGemma 2 demosu

Şekil 5. PaliGemma 2 Demosu (Kaynak: Hugging Face).

Daha derinlemesine dalmak istiyorsan, işte uygulamalı olarak nasıl başlayabileceğin:

  • Önceden eğitilmiş modeller: Hugging Face ve Kaggle gibi platformlardan önceden eğitilmiş modellere ve koda erişebilirsin. Bu kaynaklar, modelle çalışmaya başlaman için ihtiyacın olan her şeyi sağlar.
  • Not defterleri: PaliGemma 2'ye aşina olman için kapsamlı belgeler ve örnek not defterleri bulunmaktadır. Çıkarım örnekleriyle başlayabilir ve belirli görevler için kendi veri kümen üzerinde modelin ince ayarını yaparak denemeler yapabilirsin.
  • Entegrasyonlar: PaliGemma 2; Hugging Face Transformers, Keras, PyTorch, JAX ve Gemma.cpp gibi yaygın olarak kullanılan çerçevelerle uyumludur ve onu mevcut iş akışlarına zahmetsizce entegre etmeni sağlar.

Link to this sectionGoogle PaliGemma 2'nin artıları ve eksileri#

PaliGemma 2 ile nasıl başlayacağını anladığına göre, bu modelleri kullanırken aklında bulundurman gereken temel güçlü ve zayıf yönlerine daha yakından bakalım.

İşte PaliGemma 2'yi bir görüntü-dil modeli olarak öne çıkaran özellikler:

  • Verimlilik kazanımları: Gemma 2'nin optimize edilmiş mimarisinden yararlanan PaliGemma 2, dağıtım maliyetlerini en aza indirirken yüksek performans sunar.
  • Gelişmiş güvenlik özellikleri: PaliGemma 2, önyargıları azaltmak için ön eğitim verilerinin sağlam filtrelenmesi ve güvenlik karşılaştırmalarına karşı titiz değerlendirme gibi eğitim sürecinde önemli güvenlik iyileştirmeleri içerir.
  • Daha küçük konfigürasyonlar için düşük gecikme süresi: 3B modeli daha hızlı çıkarım süreleri sunarak e-ticaret ürün önerileri veya canlı destek sistemleri gibi hızın kritik olduğu durumlar için uygun hale getirir.

Bu sırada, PaliGemma 2'nin sınırlamalarla karşılaşabileceği bazı alanlar şunlardır:

  • Gecikme: Güçlü olsalar da, daha büyük modeller, özellikle gerçek zamanlı etkileşimli yapay zeka sistemleri gibi anında yanıt gerektiren görevler için dağıtıldığında gecikme sorunlarıyla karşılaşabilir.
  • Büyük veri kümelerine bağımlılık: PaliGemma 2'nin performansı, eğitim veri kümelerinin kalitesi ve çeşitliliği ile yakından bağlantılıdır; bu da onun eksik temsil edilen alanlardaki veya eğitim verilerine dahil edilmeyen dillerdeki etkinliğini sınırlayabilir.
  • Yüksek kaynak gereksinimleri: Optimizasyonlara rağmen, 10B ve 28B parametre sürümleri önemli bir hesaplama gücü gerektirir, bu da onları sınırlı kaynaklara sahip daha küçük kuruluşlar için daha az erişilebilir kılar.

Link to this sectionÖne çıkanlar#

PaliGemma 2, geliştirilmiş ölçeklenebilirlik, ince ayar esnekliği ve doğruluk sunan, görüntü-dil modellemede büyüleyici bir ilerlemedir. Erişilebilirlik çözümleri ve e-ticaretten sağlık teşhisleri ve eğitime kadar uzanan uygulamalar için değerli bir araç görevi görebilir.

Hesaplama gereksinimleri ve yüksek kaliteli verilere bağımlılık gibi sınırlamaları olsa da, güçlü yönleri onu görsel ve metinsel verileri entegre eden karmaşık görevleri ele almak için pratik bir seçim haline getirir. PaliGemma 2, araştırmacıların ve geliştiricilerin yapay zekanın çok modlu uygulamalardaki potansiyelini keşfetmeleri ve genişletmeleri için sağlam bir temel sağlayabilir.

GitHub depomuza ve topluluğumuza göz atarak yapay zeka sohbetinin bir parçası ol. Yapay zekanın tarım ve sağlık alanlarında nasıl ilerleme kaydettiğini oku! 🚀

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla