Apple, CVPR 2025'te FastVLM'yi tanıttı. Bu açık kaynaklı görüntü dili modeli, 85 kata kadar daha hızlı ilk belirteç süresi sağlayan FastViTHD kodlayıcıya sahiptir.

Apple, CVPR 2025'te FastVLM'yi tanıttı. Bu açık kaynaklı görüntü dili modeli, 85 kata kadar daha hızlı ilk belirteç süresi sağlayan FastViTHD kodlayıcıya sahiptir.
CVPR 2025 konferansında Apple, FastVLM adlı yeni bir açık kaynaklı yapay zeka modelini tanıttı. Hem görüntüleri hem de dili anlamak üzere tasarlanan bu model iPhone, iPad ve Mac gibi Apple cihazlarında çalışıyor. Bu, verilerinizi buluta göndermeden hızlı bir şekilde akıllı sonuçlar sunabileceği anlamına geliyor.
FastVLM'yi özellikle ilginç kılan şey, ne kadar hızlı ve verimli olduğudur. Apple, modelin daha az bellek ve güç kullanırken yüksek kaliteli görüntüleri yorumlamasına yardımcı olan FastViTHD adlı yeni bir görüntü kodlayıcı geliştirdi. Tüm işlemler aygıt üzerinde yerel olarak gerçekleştiriliyor ve böylece kullanıcı gizliliği korunurken daha hızlı yanıt süreleri elde ediliyor.
Bu makalede, FastVLM'nin nasıl çalıştığını, onu diğerlerinden ayıran özellikleri ve Apple'ın bu sürümünün cihazlarınızdaki günlük yapay zeka uygulamaları için neden önemli bir adım olabileceğini inceleyeceğiz.
FastVLM'yi özel yapan şeyin ne olduğuna geçmeden önce, adındaki "VLM "nin ne anlama geldiğini inceleyelim. Görsel içeriği anlamak ve dil ile ilişkilendirmek için tasarlanmış bir görsel-dil modelini ifade eder.
VLM'ler görsel anlayış ve dili bir araya getirerek bir fotoğrafı tanımlama, bir ekran görüntüsü hakkındaki soruları yanıtlama veya bir belgeden metin çıkarma gibi görevleri yerine getirmelerini sağlar. Görme-dil modelleri tipik olarak iki bölümde çalışır: biri görüntüyü işler ve veriye dönüştürür, diğeri ise okuyabileceğiniz veya duyabileceğiniz bir yanıt oluşturmak için bu verileri yorumlar.
Farkında bile olmadan bu tür bir yapay zeka inovasyonunu zaten kullanmış olabilirsiniz. Makbuzları tarayan, kimlik kartlarını okuyan, resim alt yazıları oluşturan veya az gören kişilerin ekranlarıyla etkileşime girmesine yardımcı olan uygulamalar genellikle arka planda sessizce çalışan görme dili modellerine dayanır.
Apple, FastVLM'yi diğer görsel-dil modelleriyle aynı görevleri yerine getirecek şekilde, ancak daha yüksek hız, daha güçlü gizlilik ve kendi aygıtlarında optimize edilmiş performansla oluşturdu. Bir görüntünün içeriğini anlayabilir ve metinle yanıt verebilir, ancak bulut sunucularına dayanan birçok modelin aksine, FastVLM tamamen iPhone, iPad veya Mac'inizde çalışabilir.
VLM'ler genellikle yüksek çözünürlüklü görüntülerde daha iyi performans gösterir. Örneğin, aşağıda gösterildiği gibi, FastVLM bir sokak tabelasını ancak görüntünün yüksek çözünürlüklü bir versiyonu verildiğinde "Girmeyin" olarak doğru bir şekilde tanımlayabilmiştir. Ancak, yüksek çözünürlüklü girdiler genellikle modelleri yavaşlatır. FastViTHD işte bu noktada fark yaratır.
Apple'ın yeni görüntü kodlayıcısı FastViTHD, FastVLM'nin daha az bellek ve güç kullanarak yüksek kaliteli görüntüleri daha verimli bir şekilde işlemesine yardımcı oluyor. Özellikle FastViTHD, daha küçük aygıtlarda bile sorunsuz çalışacak kadar hafif.
Ayrıca FastVLM, geliştiricilerin kaynak koduna erişebilecekleri, değişiklikler yapabilecekleri ve Apple'ın lisans koşullarına uygun olarak kendi uygulamalarında kullanabilecekleri FastVLM GitHub deposunda herkese açıktır.
Diğer görme dili modellerine kıyasla FastVLM, akıllı telefonlar ve dizüstü bilgisayarlar gibi günlük cihazlarda çalışacak şekilde optimize edilmiştir. Performans testlerinde FastVLM ilk sözcüğünü veya çıktısını LLaVA-OneVision-0.5B gibi modellerden 85 kata kadar daha hızlı üretti.
FastVLM'nin değerlendirildiği bazı standart kıyaslamalara bir göz atalım:
Bu kıyaslamalarda FastVLM daha az kaynak kullanarak rekabetçi sonuçlar elde etti. Telefonlar, tabletler ve dizüstü bilgisayarlar gibi günlük cihazlara pratik görsel yapay zeka getiriyor.
Şimdi, FastVLM'nin görüntü işleme performansında çok önemli bir rol oynayan görüntü kodlayıcısı FastViTHD'ye daha yakından bakalım.
Çoğu görsel dil modeli bir görüntüyü belirteç adı verilen binlerce küçük parçaya böler. Ne kadar çok belirteç olursa, modelin görüntüyü anlamak için o kadar çok zamana ve güce ihtiyacı olur. Bu, özellikle telefonlarda veya dizüstü bilgisayarlarda işleri yavaşlatabilir.
FastViTHD, görüntünün tamamını anlamaya devam ederken daha az sayıda belirteç kullanarak çok fazla belirteç işlemenin getirdiği yavaşlamayı önler. İki yaklaşımı birleştirir: kalıpları ve ilişkileri modellemede iyi olan dönüştürücüler ve görsel verileri işlemede verimli olan konvolüsyonel katmanlar. Sonuç olarak daha hızlı çalışan ve daha az bellek kullanan bir sistem ortaya çıkıyor.
Apple'a göre FastViTHD, bazı geleneksel görüntü kodlayıcılardan 3,4 kata kadar daha küçük olmasına rağmen yüksek doğruluk oranını koruyor. Token budama (işlemeyi hızlandırmak için daha az önemli görüntü yamalarını kaldırma) gibi model optimizasyon tekniklerine güvenmek yerine, daha basit, daha akıcı bir mimari ile verimlilik elde ediyor.
Apple, FastVLM'yi üç farklı boyutta piyasaya sürmüştür: 0.5B, 1.5B ve 7B parametreler (burada "B" milyar anlamına gelir ve modeldeki eğitilebilir ağırlıkların sayısını ifade eder). Her versiyon farklı cihaz türlerine uyacak şekilde tasarlanmıştır. Daha küçük modeller telefonlarda ve tabletlerde çalışabilirken, daha büyük 7B modeli masaüstü bilgisayarlar veya daha zorlu görevler için daha uygundur.
Bu, geliştiricilere uygulamaları için en uygun olanı seçme esnekliği sağlar. Aynı temel model mimarisini kullanırken mobil cihazlar için hızlı ve hafif bir şey veya daha büyük sistemler için daha karmaşık bir şey oluşturabilirler.
Apple, FastVLM model varyantlarını, görüntü ve dil modellerini hizalamaya yönelik bir çerçeve olan LLaVA-1.5 boru hattını kullanarak eğitti. Dil bileşeni için FastVLM'yi, doğal ve tutarlı metinler üretmesiyle bilinen Qwen ve Vicuna gibi mevcut açık kaynaklı modelleri kullanarak değerlendirdiler. Bu kurulum, FastVLM'nin hem basit hem de karmaşık görüntüleri işlemesine ve okunabilir, ilgili yanıtlar üretmesine olanak tanıyor.
FastVLM'nin verimli görüntü işleme özelliğinin neden önemli olduğunu merak ediyor olabilirsiniz. Bu, uygulamaların buluta güvenmeden gerçek zamanlı olarak ne kadar sorunsuz çalışabileceğine bağlıdır. FastVLM, doğrudan cihazınızda çalışabilecek kadar hızlı ve hafif kalırken 1152 x 1152 piksele kadar yüksek çözünürlüklü görüntüleri işleyebilir.
Bu, uygulamaların kameranın gördüklerini tanımlayabileceği, makbuzları yakalandıkları sırada tarayabileceği veya her şeyi yerel tutarken ekrandaki değişikliklere yanıt verebileceği anlamına gelir. Özellikle eğitim, erişilebilirlik, üretkenlik ve fotoğrafçılık gibi alanlar için faydalıdır.
FastViTHD büyük görüntüler söz konusu olduğunda bile verimli olduğundan, cihazların duyarlı ve serin kalmasına yardımcı olur. Giriş seviyesi iPhone'larda çalışan en küçüğü de dahil olmak üzere tüm model boyutlarıyla çalışır. Bu da aynı AI özelliklerinin telefonlar, tabletler ve Mac'lerde çalışabileceği anlamına geliyor.
FastVLM hız, verimlilik ve cihaz üzerinde gizlilik gibi temel avantajları sayesinde çok çeşitli uygulamalara güç sağlayabilir. İşte kullanılabileceği birkaç yol:
Cihaz üzerinde yapay zeka asistanları: FastVLM, ekranda ne olduğunu hızlı bir şekilde anlaması gereken yapay zeka asistanlarıyla iyi çalışabilir. Doğrudan cihaz üzerinde çalıştığından ve verileri gizli tuttuğundan, buluta bilgi göndermeye gerek kalmadan metin okuma, düğmeleri veya simgeleri tanımlama ve kullanıcıları gerçek zamanlı olarak yönlendirme gibi görevlerde yardımcı olabilir.
FastVLM, hız, gizlilik ve verimliliği bir araya getirerek Apple aygıtlarına aygıt içi görüntü dilinde yapay zeka getiriyor. Hafif tasarımı ve açık kaynak sürümü ile mobil ve masaüstü uygulamalarında gerçek zamanlı görüntü anlamayı mümkün kılıyor.
Bu, YZ'yi günlük kullanım için daha pratik ve erişilebilir hale getirmeye yardımcı olur ve geliştiricilere yararlı, gizlilik odaklı uygulamalar oluşturmak için sağlam bir temel sağlar. İleriye baktığımızda, görme-dil modellerinin teknolojiyle etkileşimimizde önemli bir rol oynaması ve yapay zekayı günlük durumlarda daha duyarlı, bağlama duyarlı ve yardımcı hale getirmesi muhtemeldir.
Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Aktif topluluğumuza katılın ve otomotiv endüstrisinde yapay zeka ve üretimde Vision AI gibi sektörlerdeki yenilikleri keşfedin. Bilgisayarla görmeye bugün başlamak için lisanslama seçeneklerimize göz atın.