FastVLM: Apple'ın Yeni Hızlı Görme Dil Modeli

CVPR 2025 konferansında Apple, FastVLM adlı yeni bir açık kaynaklı yapay zeka modeli tanıttı. Hem görüntüleri hem de dili anlamak için oluşturulmuştur ve iPhone'lar, iPad'ler ve Mac'ler gibi Apple cihazlarında çalışır. Bu, verilerinizi buluta göndermeden akıllı sonuçları hızla sunabileceği anlamına gelir.

FastVLM'yi özellikle ilginç kılan şey, ne kadar hızlı ve verimli olduğudur. Apple, modelin daha az bellek ve güç kullanırken yüksek kaliteli görüntüleri yorumlamasına yardımcı olan FastViTHD adlı yeni bir görüntü kodlayıcı geliştirdi. Tüm işlemler cihaz üzerinde yerel olarak gerçekleşir, bu da kullanıcı gizliliğini korurken daha hızlı yanıt süreleri sağlar.

Bu makalede, FastVLM'nin nasıl çalıştığını, onu diğerlerinden ayıran özellikleri ve bu Apple sürümünün cihazlarınızdaki günlük yapay zeka uygulamaları için neden önemli bir adım olabileceğini inceleyeceğiz.

Görüntü dil modellerini (VLMs) anlamak

FastVLM'yi özel yapan şeylere dalmadan önce, adındaki "VLM"nin ne anlama geldiğini açıklayalım. Görsel içeriği dil ile anlamak ve bağlamak için tasarlanmış bir görüntü-dil modelini ifade eder.

VLM'ler, görsel anlayışı ve dili bir araya getirerek bir fotoğrafı tanımlama, bir ekran görüntüsü hakkında soruları yanıtlama veya bir belgeden metin çıkarma gibi görevleri gerçekleştirmelerini sağlar. Görsel-dil modelleri genellikle iki bölümden oluşur: biri görüntüyü işler ve veriye dönüştürür, diğeri ise bu veriyi yorumlayarak okuyabileceğiniz veya duyabileceğiniz bir yanıt oluşturur.

Bu tür bir yapay zeka yeniliğini farkında bile olmadan kullanmış olabilirsiniz. Makbuzları tarayan, kimlik kartlarını okuyan, görüntü başlıkları oluşturan veya görme bozukluğu olan kişilerin ekranlarıyla etkileşim kurmasına yardımcı olan uygulamalar genellikle arka planda sessizce çalışan görme-dil modellerine güvenir.

FastVLM nedir?

Apple, FastVLM'yi diğer görüntü-dil modelleriyle aynı görevleri gerçekleştirmek için geliştirdi, ancak daha yüksek hız, daha güçlü gizlilik ve kendi cihazlarında optimize edilmiş performansla. Bir görüntünün içeriğini anlayabilir ve metinle yanıt verebilir, ancak bulut sunucularına dayanan birçok modelin aksine, FastVLM tamamen iPhone, iPad veya Mac'inizde çalışabilir.

VLM'ler genellikle yüksek çözünürlüklü görüntülerle daha iyi performans gösterir. Örneğin, aşağıda gösterildiği gibi, FastVLM bir trafik işaretini yalnızca görüntünün yüksek çözünürlüklü bir versiyonu verildiğinde doğru bir şekilde "Girilmez" olarak tanımlayabilmiştir. Ancak, yüksek çözünürlüklü girdiler genellikle modelleri yavaşlatır. FastViTHD işte burada fark yaratır.

Şekil 1. Düşük ve yüksek çözünürlüklü görüntülerde FastVLM performansı. (Kaynak)

‍

Apple'ın yeni görüntü kodlayıcısı FastViTHD, FastVLM'nin yüksek kaliteli görüntüleri daha verimli bir şekilde işlemesine, daha az bellek ve güç kullanmasına yardımcı olur. Özellikle, FastViTHD daha küçük cihazlarda bile sorunsuz çalışacak kadar hafiftir.

Ayrıca, FastVLM, geliştiricilerin kaynak koduna erişebileceği, değişiklik yapabileceği ve Apple'ın lisans koşullarına uygun olarak kendi uygulamalarında kullanabileceği FastVLM GitHub deposunda herkese açıktır.

FastVLM'nin diğer VLM modelleriyle karşılaştırılması

Diğer görme-dil modelleriyle karşılaştırıldığında, FastVLM akıllı telefonlar ve dizüstü bilgisayarlar gibi günlük cihazlarda çalışacak şekilde optimize edilmiştir. Performans testlerinde, FastVLM ilk kelimesini veya çıktısını LLaVA-OneVision-0.5B gibi modellere göre 85 kata kadar daha hızlı oluşturdu.

Şekil 2. FastVLM'nin diğer modellerle performansının karşılaştırılması. (Kaynak)

‍

İşte FastVLM'nin üzerinde değerlendirildiği bazı standart kıyaslama testlerine kısa bir bakış:

DocVQA (Belge Görsel Soru Cevaplama): Bu ölçüt, modelin taranmış formlar veya sayfalar gibi belgelerdeki metinsel bilgileri ne kadar iyi okuyup anlayabildiğini değerlendirir.
‍
TextVQA (Metin Tabanlı Görsel Soru Cevaplama): Modelin, gömülü metin içeren görüntüleri yorumlama ve ilgili soruları doğru bir şekilde yanıtlama yeteneğini değerlendirir.
‍
GQA (Grafik Soru Cevaplama): Bu görev, modelin bir görüntüdeki nesneler ve sahneler arasındaki ilişkileri anlamasını gerektirerek akıl yürütme becerilerini test eder.
‍
MMMU (Büyük Çok Disiplinli Çok Modlu Anlama): Modelin görsel ve metinsel anlayışı birleştiren çok çeşitli akademik konu ve formatlardaki performansını ölçer.
‍
SeedBench (Kıyaslama için Gelişmiş Verilerin Standart Değerlendirmesi): Bu kıyaslama, modelin görsel anlama ve akıl yürütme konusundaki genel yeteneklerini birden çok alanda araştırır.

FastVLM, bu kıyaslamalarda daha az kaynak kullanırken rekabetçi sonuçlar elde etti. Telefonlar, tabletler ve dizüstü bilgisayarlar gibi günlük cihazlara pratik görsel yapay zeka getiriyor.

FastVLM'nin verimli görme kodlayıcısı: FastViTHD

Şimdi de FastVLM'nin görüntü işleme performansında çok önemli bir rol oynayan vizyon kodlayıcı FastViTHD'ye daha yakından bakalım.

Çoğu görsel dil modeli, bir görüntüyü belirteç adı verilen binlerce küçük parçaya böler. Ne kadar çok belirteç olursa, modelin görüntüyü anlaması için o kadar çok zaman ve güce ihtiyacı olur. Bu durum, özellikle telefonlarda veya dizüstü bilgisayarlarda işleri yavaşlatabilir.

Şekil 3. Bir görme kodlayıcısı bir görüntüyü nasıl işler. (Kaynak)

‍

FastViTHD, çok fazla belirteç işlemeyle gelen yavaşlamayı, tam görüntüyü anlamaya devam ederken bunlardan daha azını kullanarak önler. İki yaklaşımı birleştirir: kalıpları ve ilişkileri modellemede iyi olan transformatörler ve görsel verileri işlemede verimli olan evrişimsel katmanlar. Sonuç, daha hızlı çalışan ve daha az bellek kullanan bir sistemdir.

Apple'a göre, FastViTHD, yüksek doğruluğu korurken bazı geleneksel görüntü işleme kodlayıcılarından 3,4 kata kadar daha küçüktür. İşlemi hızlandırmak için belirteç budama (token pruning) (daha az önemli görüntü yamalarını kaldırma) gibi model optimizasyon tekniklerine güvenmek yerine, daha basit, daha akıcı bir mimari aracılığıyla verimlilik elde eder.

FastVLM'nin model varyantları ve eğitim hattı

Apple, FastVLM'yi üç farklı boyutta yayınladı: 0,5B, 1,5B ve 7B parametre (burada "B", modeldeki eğitilebilir ağırlıkların sayısını ifade eden milyar anlamına gelir). Her sürüm, farklı cihaz türlerine uyacak şekilde tasarlanmıştır. Daha küçük modeller telefonlarda ve tabletlerde çalışabilirken, daha büyük 7B modeli masaüstleri veya daha zorlu görevler için daha uygundur.

Bu, geliştiricilere uygulamaları için en iyi olanı seçme esnekliği sağlar. Aynı temel model mimarisini kullanırken, mobil için hızlı ve hafif bir şey veya daha büyük sistemler için daha karmaşık bir şey oluşturabilirler.

Apple, FastVLM model varyantlarını, görüntü ve dil modellerini hizalamak için bir çerçeve olan LLaVA‑1.5 hattını kullanarak eğitti. Dil bileşeni için, doğal ve tutarlı metin üretimiyle bilinen Qwen ve Vicuna gibi mevcut açık kaynaklı modelleri kullanarak FastVLM'yi değerlendirdiler. Bu kurulum, FastVLM'nin hem basit hem de karmaşık görüntüleri işlemesine ve okunabilir, alakalı yanıtlar üretmesine olanak tanır.

FastVLM'nin önemi: Apple'ın yapay zekaya verimli yaklaşımı

FastVLM'nin verimli görüntü işlemesinin neden önemli olduğunu merak ediyor olabilirsiniz? Bunun nedeni, uygulamaların buluta güvenmeden gerçek zamanlı olarak ne kadar sorunsuz çalışabileceğidir. FastVLM, doğrudan cihazınızda çalışacak kadar hızlı ve hafif kalırken, 1152'ye 1152 piksele kadar yüksek çözünürlüklü görüntüleri işleyebilir.

Bu, uygulamaların kameranın gördüklerini tanımlayabileceği, çekildikleri anda makbuzları tarayabileceği veya ekrandaki değişikliklere yanıt verebileceği ve tüm bunları yerel olarak tutabileceği anlamına gelir. Özellikle eğitim, erişilebilirlik, üretkenlik ve fotoğrafçılık gibi alanlar için faydalıdır.

FastViTHD, büyük resimler söz konusu olduğunda bile verimli olduğundan, cihazların hızlı yanıt vermesine ve serin kalmasına yardımcı olur. Giriş seviyesi iPhone'larda çalışan en küçük olanı da dahil olmak üzere tüm model boyutlarıyla çalışır. Bu, aynı yapay zeka özelliklerinin telefonlarda, tabletlerde ve Mac'lerde çalışabileceği anlamına gelir.

FastVLM Uygulamaları

FastVLM, hız, verimlilik ve cihaz üzerinde gizlilik gibi temel faydaları sayesinde çok çeşitli uygulamalara güç sağlayabilir. İşte nasıl kullanılabileceğine dair birkaç örnek:

Belgeleri okuma: Fişleri, formları veya kimlik kartlarını tarayabilir ve yalnızca ilgili bilgileri çıkarabilir. Hızlı ve doğru metin çıkarma gerektiren uygulamalar için yararlı olan bir görüntüdeki belirli alanlara odaklanabilir.
‍
Resim başlıkları: Bir fotoğrafı analiz ederek, resimde ne olduğuna dair net bir açıklama oluşturabilir. Bu, kamera uygulamalarındaki, fotoğraf galerilerindeki veya gerçek zamanlı görsel anlayıştan yararlanan herhangi bir araçtaki özellikleri destekler.
‍
Erişilebilirlik desteği: FastVLM, kör veya az gören kullanıcılar için ekrandaki içeriği açıklayabilir, bu da düğmeleri, menüleri ve düzen öğelerini gezinmeyi ve kullanmayı kolaylaştırır.

Cihaz üzerinde yapay zeka asistanları: FastVLM, ekranda ne olduğunu hızla anlaması gereken yapay zeka asistanlarıyla iyi çalışabilir. Doğrudan cihaz üzerinde çalıştığı ve verileri gizli tuttuğu için, metin okuma, düğmeleri veya simgeleri tanımlama ve buluta bilgi göndermeye gerek kalmadan kullanıcılara gerçek zamanlı olarak rehberlik etme gibi görevlere yardımcı olabilir.

Şekil 4. FastVLM, metin tanıma ve görsel soru cevaplama için kullanılabilir. (Kaynak)

‍

Önemli çıkarımlar

FastVLM, cihaz üzerinde görüntü-dil yapay zekasını Apple cihazlarına getirerek hızı, gizliliği ve verimliliği bir araya getiriyor. Hafif tasarımı ve açık kaynaklı sürümü ile mobil ve masaüstü uygulamalarında gerçek zamanlı görüntü anlamayı mümkün kılar.

Bu, yapay zekanın günlük kullanım için daha pratik ve erişilebilir hale gelmesine yardımcı olur ve geliştiricilere kullanışlı, gizliliğe odaklı uygulamalar oluşturmak için sağlam bir temel sağlar. İleriye baktığımızda, görme-dil modellerinin teknolojiyle etkileşimimizde önemli bir rol oynaması ve yapay zekayı günlük durumlarda daha duyarlı, bağlam farkındalığı olan ve yardımcı hale getirmesi muhtemeldir.

Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Aktif topluluğumuza katılın ve otomotivdeki yapay zeka endüstrisi ve üretimde Görüntü İşleme gibi sektörlerdeki yenilikleri keşfedin. Bilgisayarlı görüye bugün başlamak için lisanslama seçeneklerimize göz atın.

FastVLM: Apple yeni hızlı görme dil modelini tanıtıyor

Görüntü dil modellerini (VLMs) anlamak

FastVLM nedir?

FastVLM'nin diğer VLM modelleriyle karşılaştırılması

FastVLM'nin verimli görme kodlayıcısı: FastViTHD

FastVLM'nin model varyantları ve eğitim hattı

FastVLM'nin önemi: Apple'ın yapay zekaya verimli yaklaşımı

FastVLM Uygulamaları

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

FastVLM: Apple yeni hızlı görme dil modelini tanıtıyor

Görüntü dil modellerini (VLMs) anlamak

FastVLM nedir?

FastVLM'nin diğer VLM modelleriyle karşılaştırılması

FastVLM'nin verimli görme kodlayıcısı: FastViTHD

FastVLM'nin model varyantları ve eğitim hattı

FastVLM'nin önemi: Apple'ın yapay zekaya verimli yaklaşımı

FastVLM Uygulamaları

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!