YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Yapay Zeka Görüşü

FastVLM: Apple yeni hızlı görü-dil modelini tanıtıyor

Apple, CVPR 2025'te FastVLM'i tanıttı. Bu açık kaynaklı görü-dil modeli, 85 kat daha hızlı ilk token süresi sağlayan FastViTHD kodlayıcısını içeriyor.

ABAbirami Vina
4 min read
Apple'ın FastVLM hızlı görü-dil modeli

CVPR 2025 konferansında Apple, FastVLM adında yeni bir açık kaynaklı yapay zeka modeli tanıttı. Hem görüntüleri hem de dili anlamak üzere geliştirilen bu model, iPhone, iPad ve Mac gibi Apple cihazlarında çalışır. Bu da verilerini buluta göndermene gerek kalmadan akıllı sonuçları hızla alabileceğin anlamına gelir.

FastVLM'i özellikle ilginç kılan şey, ne kadar hızlı ve verimli olduğudur. Apple, modelin daha az bellek ve güç kullanarak yüksek kaliteli görüntüleri yorumlamasına yardımcı olan FastViTHD adında yeni bir görme kodlayıcısı geliştirdi. Tüm işlemler yerel olarak cihaz üzerinde gerçekleşir; bu da kullanıcı gizliliğini korurken daha hızlı yanıt süreleri sağlar.

Bu makalede FastVLM'in nasıl çalıştığını, onu farklı kılan özelliklerini ve Apple'ın bu sürümünün cihazlarındaki günlük yapay zeka uygulamaları için neden önemli bir adım olabileceğini keşfedeceğiz.

Link to this sectionGörme-dil modellerini (VLM) anlamak#

FastVLM'i özel kılan özelliklere dalmadan önce, ismindeki "VLM" ifadesinin ne anlama geldiğine bakalım. Bu, görsel içerikleri dil ile anlamak ve bağdaştırmak üzere tasarlanmış bir görme-dil modeli anlamına gelir.

VLM'ler, görsel anlayışı ve dili bir araya getirerek bir fotoğrafı tanımlama, ekran görüntüsü hakkında soruları yanıtlama veya bir belgeden metin çıkarma gibi görevleri yerine getirmelerini sağlar. Görme-dil modelleri genellikle iki aşamada çalışır: biri görüntüyü işleyip veriye dönüştürürken, diğeri ise okuyabileceğin veya duyabileceğin bir yanıt oluşturmak için bu veriyi yorumlar.

Bu tür bir yapay zeka yeniliğini fark etmeden zaten kullanmış olabilirsin. Fiş tarayan, kimlik kartlarını okuyan, resim altyazıları oluşturan veya görme engelli bireylerin ekranlarıyla etkileşim kurmalarına yardımcı olan uygulamalar genellikle arka planda sessizce çalışan görme-dil modellerine güvenirler.

Link to this sectionFastVLM nedir?#

Apple, FastVLM'i diğer görme-dil modelleriyle aynı görevleri yapmak üzere ancak daha yüksek hız, daha güçlü gizlilik ve kendi cihazlarında optimize edilmiş bir performansla çalışacak şekilde geliştirdi. Bir görüntünün içeriğini anlayıp metinle yanıt verebilir; ancak bulut sunucularına güvenen birçok modelin aksine FastVLM tamamen iPhone, iPad veya Mac'inde çalışabilir.

VLM'ler genellikle yüksek çözünürlüklü görüntülerle daha iyi performans gösterirler. Örneğin, aşağıda gösterildiği gibi FastVLM, ancak yüksek çözünürlüklü bir görüntü verildiğinde bir trafik işaretini "Girilmez" olarak doğru bir şekilde tanımlayabilmiştir. Ancak, yüksek çözünürlüklü girdiler genellikle modelleri yavaşlatır. İşte FastViTHD'nin fark yarattığı nokta burasıdır.

FastVLM'in düşük ve yüksek çözünürlüklü görsellerdeki performansı

Şekil 1. FastVLM'in düşük ve yüksek çözünürlüklü görüntülerdeki performansı. (Kaynak)

Apple'ın yeni görme kodlayıcısı FastViTHD, FastVLM'in yüksek kaliteli görüntüleri daha az bellek ve güç kullanarak daha verimli işlemesine yardımcı olur. Özellikle FastViTHD, daha küçük cihazlarda bile sorunsuz çalışacak kadar hafiftir.

Ayrıca FastVLM, geliştiricilerin kaynak koduna erişebileceği, değişiklik yapabileceği ve Apple'ın lisans şartlarına uygun olarak kendi uygulamalarında kullanabileceği FastVLM GitHub deposunda halka açık olarak mevcuttur.

Link to this sectionFastVLM'i diğer VLM modelleriyle karşılaştırmak#

Diğer görme-dil modelleriyle karşılaştırıldığında FastVLM, akıllı telefonlar ve dizüstü bilgisayarlar gibi günlük cihazlarda çalışacak şekilde optimize edilmiştir. Performans testlerinde FastVLM, ilk kelimesini veya çıktısını LLaVA-OneVision-0.5B gibi modellere kıyasla 85 kata kadar daha hızlı üretmiştir.

FastVLM performansının diğer modellerle karşılaştırılması

Şekil 2. FastVLM'in diğer modellerle performans karşılaştırması. (Kaynak)

İşte FastVLM'in değerlendirildiği standart karşılaştırma testlerinden bazılarına genel bir bakış:

  • DocVQA (Belge Görsel Soru-Cevap): Bu test, modelin taranmış formlar veya sayfalar gibi belgelerdeki metinsel bilgileri ne kadar iyi okuyup anlayabildiğini değerlendirir.
  • TextVQA (Metin Tabanlı Görsel Soru-Cevap): Modelin, gömülü metin içeren görüntüleri yorumlama ve ilgili soruları doğru bir şekilde yanıtlama yeteneğini ölçer.
  • GQA (Grafik Soru-Cevap): Bu görev, modelin bir görüntüdeki nesneler ve sahneler arasındaki ilişkileri anlamasını gerektirerek muhakeme becerilerini test eder.
  • MMMU (Kitlesel Çok Disiplinli Çok Modlu Anlayış): Görsel ve metinsel kavramayı birleştirerek modelin çok çeşitli akademik konulardaki ve formatlardaki performansını ölçer.
  • SeedBench (Kıyaslama için Geliştirilmiş Verilerin Standart Değerlendirmesi): Bu test, modelin birden fazla alandaki görsel anlama ve muhakeme konusundaki genel yeteneklerini inceler.

Bu testler genelinde FastVLM, daha az kaynak kullanarak rekabetçi sonuçlar elde etti. Telefonlar, tabletler ve dizüstü bilgisayarlar gibi günlük cihazlara pratik görme yapay zekasını getiriyor.

Link to this sectionFastVLM'in verimli görme kodlayıcısı: FastViTHD#

Sırada, FastVLM'in görüntü işleme performansında çok önemli bir rol oynayan görme kodlayıcısı FastViTHD'ye daha yakından bakalım.

Çoğu görme-dil modeli bir görüntüyü token adı verilen binlerce küçük parçaya böler. Token sayısı ne kadar çok olursa, modelin görüntüyü anlaması için o kadar çok zaman ve güç gerekir. Bu da özellikle telefonlarda veya dizüstü bilgisayarlarda işleri yavaşlatabilir.

Bir görüntü kodlayıcının (vision encoder) bir görseli nasıl işlediği

Şekil 3. Bir görme kodlayıcısı görüntüyü nasıl işler. (Kaynak)

FastViTHD, görüntünün tamamını anlamaya devam ederken daha az sayıda token kullanarak çok fazla token işlemenin getirdiği yavaşlamayı önler. Modelleri ve ilişkileri modellemede başarılı olan Transformer'lar ile görsel verileri işlemede verimli olan evrişimli katmanları birleştirir. Sonuç, daha hızlı çalışan ve daha az bellek kullanan bir sistemdir.

Apple'a göre FastViTHD, bazı geleneksel görme kodlayıcılarından 3,4 kat daha küçüktür ve yüksek doğruluğu korumaya devam eder. Token budama (işlemi hızlandırmak için daha az önemli görüntü parçalarını kaldırma) gibi model optimizasyon tekniklerine güvenmek yerine, verimliliğini daha basit ve modern bir mimariyle sağlar.

Link to this sectionFastVLM'in model varyantları ve eğitim hattı#

Apple, FastVLM'i üç farklı boyutta yayınladı: 0.5B, 1.5B ve 7B parametre (burada "B", milyar anlamına gelir ve modeldeki eğitilebilir ağırlık sayısını ifade eder). Her sürüm, farklı cihaz türlerine uyacak şekilde tasarlanmıştır. Daha küçük modeller telefonlarda ve tabletlerde çalışabilirken, daha büyük olan 7B modeli masaüstü bilgisayarlar veya daha zorlu görevler için daha uygundur.

Bu, geliştiricilere uygulamaları için en iyi olanı seçme esnekliği sağlar. Aynı temel model mimarisini kullanarak mobil için hızlı ve hafif bir şey veya daha büyük sistemler için daha karmaşık bir şey oluşturabilirler.

Apple, FastVLM model varyantlarını, görme ve dil modellerini hizalamak için bir çerçeve olan LLaVA-1.5 hattını kullanarak eğitti. Dil bileşeni için, doğal ve tutarlı metinler üretmeleriyle bilinen Qwen ve Vicuna gibi mevcut açık kaynaklı modelleri kullanarak FastVLM'i değerlendirdiler. Bu kurulum, FastVLM'in hem basit hem de karmaşık görüntüleri işlemesine ve okunabilir, alakalı yanıtlar üretmesine olanak tanır.

Link to this sectionFastVLM'in önemi: Apple'ın yapay zekaya verimli yaklaşımı#

FastVLM'in verimli görüntü işlemesinin neden önemli olduğunu merak ediyor olabilirsin. Bu, uygulamaların buluta ihtiyaç duymadan gerçek zamanlı olarak ne kadar sorunsuz çalışabileceği ile ilgilidir. FastVLM, doğrudan cihazında çalışacak kadar hızlı ve hafif kalırken 1152'ye 1152 piksele kadar yüksek çözünürlüklü görüntüleri işleyebilir.

Bu, uygulamaların her şeyi yerel tutarken kameranın ne gördüğünü tanımlayabileceği, fişleri yakalandıkları anda tarayabileceği veya ekrandaki değişikliklere yanıt verebileceği anlamına gelir. Özellikle eğitim, erişilebilirlik, verimlilik ve fotoğrafçılık gibi alanlar için oldukça yardımcıdır.

FastViTHD, büyük görüntüler söz konusu olduğunda bile verimli olduğu için cihazların duyarlı kalmasına ve ısınmamasına yardımcı olur. Giriş seviyesi iPhone'larda çalışan en küçüğü dahil tüm model boyutlarıyla çalışır. Bu da aynı yapay zeka özelliklerinin telefonlar, tabletler ve Mac'lerde çalışabileceği anlamına gelir.

Link to this sectionFastVLM'in uygulamaları#

FastVLM; hız, verimlilik ve cihaz içi gizlilik gibi temel avantajları sayesinde çok çeşitli uygulamalara güç verebilir. İşte kullanılabileceği birkaç yol:

  • Belgeleri okuma: Fişleri, formları veya kimlik kartlarını tarayabilir ve yalnızca ilgili bilgileri çıkarabilir. Hızlı ve doğru metin çıkarma gerektiren uygulamalar için yararlı olan görüntüdeki belirli alanlara odaklanabilir.

  • Görüntü altyazıları: Bir fotoğrafı analiz ederek görüntüde nelerin olduğuna dair net bir açıklama oluşturabilir. Bu, kamera uygulamalarındaki, fotoğraf galerilerindeki veya gerçek zamanlı görsel anlamadan yararlanan herhangi bir araçtaki özellikleri destekler.

  • Erişilebilirlik desteği: FastVLM, görme engelli veya az gören kullanıcılar için ekran içeriğini tanımlayabilir, düğmeleri, menüleri ve düzen öğelerini gezinmeyi ve kullanmayı daha kolay hale getirebilir.

  • Cihaz içi yapay zeka asistanları: FastVLM, ekranda neler olduğunu hızla anlaması gereken yapay zeka asistanlarıyla iyi çalışabilir. Doğrudan cihaz üzerinde çalıştığı ve verileri gizli tuttuğu için metin okuma, düğmeleri veya simgeleri tanımlama ve bilgileri buluta göndermeye gerek kalmadan kullanıcılara gerçek zamanlı olarak rehberlik etme gibi görevlerde yardımcı olabilir.

FastVLM, metin tanıma ve görsel soru cevaplama için kullanılabilir

Şekil 4. FastVLM metin tanıma ve görsel soru-cevap için kullanılabilir. (Kaynak)

Link to this sectionÖne çıkanlar#

FastVLM, hız, gizlilik ve verimliliği birleştirerek cihaz içi görme-dil yapay zekasını Apple cihazlarına getiriyor. Hafif tasarımı ve açık kaynaklı sürümü ile mobil ve masaüstü uygulamalarında gerçek zamanlı görüntü anlamayı mümkün kılıyor.

Bu, yapay zekayı günlük kullanım için daha pratik ve erişilebilir hale getirmeye yardımcı oluyor ve geliştiricilere kullanışlı, gizlilik odaklı uygulamalar oluşturmaları için sağlam bir temel sunuyor. İleriye bakıldığında, görme-dil modellerinin teknolojiyle etkileşim şeklimizde önemli bir rol oynaması, yapay zekayı daha duyarlı, bağlama duyarlı ve günlük durumlarda daha yardımcı hale getirmesi muhtemeldir.

Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfet. Aktif topluluğumuza katıl ve otomotivde yapay zeka ve üretimde görme yapay zekası gibi sektörlerdeki yenilikleri keşfet. Bilgisayarlı görüye bugün başlamak için lisanslama seçeneklerimize göz at.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.
Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.
Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.
Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.
Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.
Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.
Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla