FastVLM: Apple Yeni Hızlı Görme Dili Modelini Tanıttı

Abirami Vina

4 dakika okuma

8 Ağustos 2025

Apple, CVPR 2025'te FastVLM'yi tanıttı. Bu açık kaynaklı görüntü dili modeli, 85 kata kadar daha hızlı ilk belirteç süresi sağlayan FastViTHD kodlayıcıya sahiptir.

CVPR 2025 konferansında Apple, FastVLM adlı yeni bir açık kaynaklı yapay zeka modelini tanıttı. Hem görüntüleri hem de dili anlamak üzere tasarlanan bu model iPhone, iPad ve Mac gibi Apple cihazlarında çalışıyor. Bu, verilerinizi buluta göndermeden hızlı bir şekilde akıllı sonuçlar sunabileceği anlamına geliyor.

FastVLM'yi özellikle ilginç kılan şey, ne kadar hızlı ve verimli olduğudur. Apple, modelin daha az bellek ve güç kullanırken yüksek kaliteli görüntüleri yorumlamasına yardımcı olan FastViTHD adlı yeni bir görüntü kodlayıcı geliştirdi. Tüm işlemler aygıt üzerinde yerel olarak gerçekleştiriliyor ve böylece kullanıcı gizliliği korunurken daha hızlı yanıt süreleri elde ediliyor.

Bu makalede, FastVLM'nin nasıl çalıştığını, onu diğerlerinden ayıran özellikleri ve Apple'ın bu sürümünün cihazlarınızdaki günlük yapay zeka uygulamaları için neden önemli bir adım olabileceğini inceleyeceğiz.

Görsel dil modellerini (VLM'ler) anlama

FastVLM'yi özel yapan şeyin ne olduğuna geçmeden önce, adındaki "VLM "nin ne anlama geldiğini inceleyelim. Görsel içeriği anlamak ve dil ile ilişkilendirmek için tasarlanmış bir görsel-dil modelini ifade eder.

VLM'ler görsel anlayış ve dili bir araya getirerek bir fotoğrafı tanımlama, bir ekran görüntüsü hakkındaki soruları yanıtlama veya bir belgeden metin çıkarma gibi görevleri yerine getirmelerini sağlar. Görme-dil modelleri tipik olarak iki bölümde çalışır: biri görüntüyü işler ve veriye dönüştürür, diğeri ise okuyabileceğiniz veya duyabileceğiniz bir yanıt oluşturmak için bu verileri yorumlar.

Farkında bile olmadan bu tür bir yapay zeka inovasyonunu zaten kullanmış olabilirsiniz. Makbuzları tarayan, kimlik kartlarını okuyan, resim alt yazıları oluşturan veya az gören kişilerin ekranlarıyla etkileşime girmesine yardımcı olan uygulamalar genellikle arka planda sessizce çalışan görme dili modellerine dayanır.

FastVLM nedir?

Apple, FastVLM'yi diğer görsel-dil modelleriyle aynı görevleri yerine getirecek şekilde, ancak daha yüksek hız, daha güçlü gizlilik ve kendi aygıtlarında optimize edilmiş performansla oluşturdu. Bir görüntünün içeriğini anlayabilir ve metinle yanıt verebilir, ancak bulut sunucularına dayanan birçok modelin aksine, FastVLM tamamen iPhone, iPad veya Mac'inizde çalışabilir.

VLM'ler genellikle yüksek çözünürlüklü görüntülerde daha iyi performans gösterir. Örneğin, aşağıda gösterildiği gibi, FastVLM bir sokak tabelasını ancak görüntünün yüksek çözünürlüklü bir versiyonu verildiğinde "Girmeyin" olarak doğru bir şekilde tanımlayabilmiştir. Ancak, yüksek çözünürlüklü girdiler genellikle modelleri yavaşlatır. FastViTHD işte bu noktada fark yaratır.

Şekil 1. Düşük ve yüksek çözünürlüklü görüntülerde FastVLM performansı.(Kaynak)

Apple'ın yeni görüntü kodlayıcısı FastViTHD, FastVLM'nin daha az bellek ve güç kullanarak yüksek kaliteli görüntüleri daha verimli bir şekilde işlemesine yardımcı oluyor. Özellikle FastViTHD, daha küçük aygıtlarda bile sorunsuz çalışacak kadar hafif.

Ayrıca FastVLM, geliştiricilerin kaynak koduna erişebilecekleri, değişiklikler yapabilecekleri ve Apple'ın lisans koşullarına uygun olarak kendi uygulamalarında kullanabilecekleri FastVLM GitHub deposunda herkese açıktır.

FastVLM'nin diğer VLM modelleri ile karşılaştırılması

Diğer görme dili modellerine kıyasla FastVLM, akıllı telefonlar ve dizüstü bilgisayarlar gibi günlük cihazlarda çalışacak şekilde optimize edilmiştir. Performans testlerinde FastVLM ilk sözcüğünü veya çıktısını LLaVA-OneVision-0.5B gibi modellerden 85 kata kadar daha hızlı üretti. 

Şekil 2. FastVLM'nin performansının diğer modellerle karşılaştırılması.(Kaynak)

FastVLM'nin değerlendirildiği bazı standart kıyaslamalara bir göz atalım:

  • DocVQA (Belge Görsel Soru Yanıtlama): Bu ölçüt, modelin taranmış formlar veya sayfalar gibi belgelerdeki metinsel bilgileri ne kadar iyi okuyup anlayabildiğini değerlendirir.
  • TextVQA (Metin Tabanlı Görsel Soru Yanıtlama): Modelin gömülü metin içeren görüntüleri yorumlama ve ilgili soruları doğru bir şekilde yanıtlama becerisini değerlendirir.
  • GQA (Grafik Soru Cevaplama): Bu görev, bir görüntüdeki nesneler ve sahneler arasındaki ilişkileri anlamasını gerektirerek modelin muhakeme becerilerini test eder.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Görsel ve metinsel anlamayı birleştirerek modelin geniş bir akademik konu ve format yelpazesindeki performansını ölçer.
  • SeedBench (Kıyaslama için Geliştirilmiş Verilerin Standart Değerlendirmesi): Bu kıyaslama, modelin birden fazla alanda görsel anlama ve muhakeme konusundaki genel yeteneklerini araştırır.

Bu kıyaslamalarda FastVLM daha az kaynak kullanarak rekabetçi sonuçlar elde etti. Telefonlar, tabletler ve dizüstü bilgisayarlar gibi günlük cihazlara pratik görsel yapay zeka getiriyor.

FastVLM'nin verimli görsel kodlayıcısı: FastViTHD

Şimdi, FastVLM'nin görüntü işleme performansında çok önemli bir rol oynayan görüntü kodlayıcısı FastViTHD'ye daha yakından bakalım.

Çoğu görsel dil modeli bir görüntüyü belirteç adı verilen binlerce küçük parçaya böler. Ne kadar çok belirteç olursa, modelin görüntüyü anlamak için o kadar çok zamana ve güce ihtiyacı olur. Bu, özellikle telefonlarda veya dizüstü bilgisayarlarda işleri yavaşlatabilir.

Şekil 3. Bir görüntü kodlayıcı bir görüntüyü nasıl işler?(Kaynak)

FastViTHD, görüntünün tamamını anlamaya devam ederken daha az sayıda belirteç kullanarak çok fazla belirteç işlemenin getirdiği yavaşlamayı önler. İki yaklaşımı birleştirir: kalıpları ve ilişkileri modellemede iyi olan dönüştürücüler ve görsel verileri işlemede verimli olan konvolüsyonel katmanlar. Sonuç olarak daha hızlı çalışan ve daha az bellek kullanan bir sistem ortaya çıkıyor.

Apple'a göre FastViTHD, bazı geleneksel görüntü kodlayıcılardan 3,4 kata kadar daha küçük olmasına rağmen yüksek doğruluk oranını koruyor. Token budama (işlemeyi hızlandırmak için daha az önemli görüntü yamalarını kaldırma) gibi model optimizasyon tekniklerine güvenmek yerine, daha basit, daha akıcı bir mimari ile verimlilik elde ediyor.

FastVLM'nin model varyantları ve eğitim hattı

Apple, FastVLM'yi üç farklı boyutta piyasaya sürmüştür: 0.5B, 1.5B ve 7B parametreler (burada "B" milyar anlamına gelir ve modeldeki eğitilebilir ağırlıkların sayısını ifade eder). Her versiyon farklı cihaz türlerine uyacak şekilde tasarlanmıştır. Daha küçük modeller telefonlarda ve tabletlerde çalışabilirken, daha büyük 7B modeli masaüstü bilgisayarlar veya daha zorlu görevler için daha uygundur.

Bu, geliştiricilere uygulamaları için en uygun olanı seçme esnekliği sağlar. Aynı temel model mimarisini kullanırken mobil cihazlar için hızlı ve hafif bir şey veya daha büyük sistemler için daha karmaşık bir şey oluşturabilirler.

Apple, FastVLM model varyantlarını, görüntü ve dil modellerini hizalamaya yönelik bir çerçeve olan LLaVA-1.5 boru hattını kullanarak eğitti. Dil bileşeni için FastVLM'yi, doğal ve tutarlı metinler üretmesiyle bilinen Qwen ve Vicuna gibi mevcut açık kaynaklı modelleri kullanarak değerlendirdiler. Bu kurulum, FastVLM'nin hem basit hem de karmaşık görüntüleri işlemesine ve okunabilir, ilgili yanıtlar üretmesine olanak tanıyor.

FastVLM'nin önemi: Apple'ın yapay zekayı verimli bir şekilde ele alması

FastVLM'nin verimli görüntü işleme özelliğinin neden önemli olduğunu merak ediyor olabilirsiniz. Bu, uygulamaların buluta güvenmeden gerçek zamanlı olarak ne kadar sorunsuz çalışabileceğine bağlıdır. FastVLM, doğrudan cihazınızda çalışabilecek kadar hızlı ve hafif kalırken 1152 x 1152 piksele kadar yüksek çözünürlüklü görüntüleri işleyebilir.

Bu, uygulamaların kameranın gördüklerini tanımlayabileceği, makbuzları yakalandıkları sırada tarayabileceği veya her şeyi yerel tutarken ekrandaki değişikliklere yanıt verebileceği anlamına gelir. Özellikle eğitim, erişilebilirlik, üretkenlik ve fotoğrafçılık gibi alanlar için faydalıdır.

FastViTHD büyük görüntüler söz konusu olduğunda bile verimli olduğundan, cihazların duyarlı ve serin kalmasına yardımcı olur. Giriş seviyesi iPhone'larda çalışan en küçüğü de dahil olmak üzere tüm model boyutlarıyla çalışır. Bu da aynı AI özelliklerinin telefonlar, tabletler ve Mac'lerde çalışabileceği anlamına geliyor.

FastVLM Uygulamaları

FastVLM hız, verimlilik ve cihaz üzerinde gizlilik gibi temel avantajları sayesinde çok çeşitli uygulamalara güç sağlayabilir. İşte kullanılabileceği birkaç yol:

  • Belgeleri okuma: Makbuzları, formları veya kimlik kartlarını tarayabilir ve yalnızca ilgili bilgileri çıkarabilir. Bir görüntüdeki belirli alanlara odaklanabilir, bu da hızlı ve doğru metin çıkarma gerektiren uygulamalar için kullanışlıdır.
  • Resim başlıkları: Bir fotoğrafı analiz ederek, görüntüde ne olduğuna dair net bir açıklama oluşturabilir. Bu, kamera uygulamalarındaki, fotoğraf galerilerindeki veya gerçek zamanlı görsel anlayıştan yararlanan herhangi bir araçtaki özellikleri destekler.
  • Erişilebilirlik desteği: FastVLM, görme engelli veya az gören kullanıcılar için ekran içeriğini tanımlayabilir ve düğmelerin, menülerin ve düzen öğelerinin gezinmesini ve kullanılmasını kolaylaştırır.

Cihaz üzerinde yapay zeka asistanları: FastVLM, ekranda ne olduğunu hızlı bir şekilde anlaması gereken yapay zeka asistanlarıyla iyi çalışabilir. Doğrudan cihaz üzerinde çalıştığından ve verileri gizli tuttuğundan, buluta bilgi göndermeye gerek kalmadan metin okuma, düğmeleri veya simgeleri tanımlama ve kullanıcıları gerçek zamanlı olarak yönlendirme gibi görevlerde yardımcı olabilir.

Şekil 4. FastVLM metin tanıma ve görsel soru cevaplama için kullanılabilir.(Kaynak)

Önemli çıkarımlar

FastVLM, hız, gizlilik ve verimliliği bir araya getirerek Apple aygıtlarına aygıt içi görüntü dilinde yapay zeka getiriyor. Hafif tasarımı ve açık kaynak sürümü ile mobil ve masaüstü uygulamalarında gerçek zamanlı görüntü anlamayı mümkün kılıyor. 

Bu, YZ'yi günlük kullanım için daha pratik ve erişilebilir hale getirmeye yardımcı olur ve geliştiricilere yararlı, gizlilik odaklı uygulamalar oluşturmak için sağlam bir temel sağlar. İleriye baktığımızda, görme-dil modellerinin teknolojiyle etkileşimimizde önemli bir rol oynaması ve yapay zekayı günlük durumlarda daha duyarlı, bağlama duyarlı ve yardımcı hale getirmesi muhtemeldir.

Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Aktif topluluğumuza katılın ve otomotiv endüstrisinde yapay zeka ve üretimde Vision AI gibi sektörlerdeki yenilikleri keşfedin. Bilgisayarla görmeye bugün başlamak için lisanslama seçeneklerimize göz atın.

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı