FastVLM: Apple تطرح نموذجها الجديد للغة الرؤية السريعة

أبيرامي فينا

4 دقائق للقراءة

8 أغسطس 2025

تكشف Apple عن FastVLM في معرض CVPR 2025. يتميز هذا النموذج المفتوح المصدر للغة الرؤية بتشفير FastViTHD، مما يوفر وقتاً أسرع حتى 85 ضعفاً من أول رمز.

في مؤتمر CVPR 2025، قدمت Apple في مؤتمر CVPR 2025 نموذج ذكاء اصطناعي جديد مفتوح المصدر يسمى FastVLM. وهو مصمم لفهم كل من الصور واللغة، ويعمل على أجهزة Apple مثل أجهزة iPhone وiPad وMac. وهذا يعني أنه يمكنه تقديم نتائج ذكية بسرعة، دون إرسال بياناتك إلى السحابة.

ما يجعل FastVLM مثيراً للاهتمام بشكل خاص هو مدى سرعته وكفاءته. طورت Apple برنامج تشفير رؤية جديد يسمى FastViTHD، والذي يساعد النموذج على تفسير الصور عالية الجودة مع استخدام ذاكرة وطاقة أقل. تتم جميع عمليات المعالجة محلياً على الجهاز، مما يؤدي إلى أوقات استجابة أسرع مع الحفاظ على خصوصية المستخدم.

سنستكشف في هذه المقالة كيفية عمل FastVLM، وما الذي يميزه، ولماذا يمكن أن يكون إصدار Apple هذا خطوة مهمة إلى الأمام لتطبيقات الذكاء الاصطناعي اليومية على أجهزتك.

فهم نماذج لغة الرؤية (VLMs)

قبل أن نغوص في ما يجعل FastVLM مميزًا، دعنا نتعرف على ما يرمز إليه "VLM" في اسمه. يشير إلى نموذج لغة الرؤية، وهو مصمم لفهم المحتوى المرئي وربطه باللغة.

تجمع النماذج اللغوية البصرية المرئية بين الفهم البصري واللغة، مما يمكّنها من أداء مهام مثل وصف صورة أو الإجابة عن أسئلة حول لقطة شاشة أو استخراج نص من مستند. تعمل النماذج البصرية اللغوية عادةً في جزأين: أحدهما يعالج الصورة ويحولها إلى بيانات، بينما يفسر الآخر تلك البيانات لتوليد استجابة يمكنك قراءتها أو سماعها.

ربما تكون قد استخدمت بالفعل هذا النوع من ابتكارات الذكاء الاصطناعي دون أن تدرك ذلك. فالتطبيقات التي تفحص الإيصالات، أو تقرأ بطاقات الهوية، أو تنشئ تعليقات على الصور، أو تساعد الأشخاص الذين يعانون من ضعف البصر على التفاعل مع شاشاتهم، غالباً ما تعتمد على نماذج لغة الرؤية التي تعمل بهدوء في الخلفية.

ما هو FastVLM؟

صممت Apple برنامج FastVLM لأداء المهام نفسها التي تؤديها نماذج لغة الرؤية الأخرى، ولكن بسرعة أكبر وخصوصية أقوى وأداء محسّن على أجهزتها الخاصة. ويمكنه فهم محتويات الصورة والاستجابة بالنص، ولكن على عكس العديد من النماذج التي تعتمد على الخوادم السحابية، يمكن تشغيل FastVLM بالكامل على جهاز iPhone أو iPad أو Mac.

عادةً ما يكون أداء VLMs أفضل مع الصور عالية الدقة. على سبيل المثال، كما هو موضح أدناه، لم تتمكن FastVLM من تحديد علامة شارع على أنها "ممنوع الدخول" بشكل صحيح إلا عند إعطاء نسخة عالية الدقة من الصورة. ومع ذلك، عادةً ما تؤدي المدخلات عالية الدقة إلى إبطاء النماذج. هذا هو المكان الذي يحدث فيه FastViTHD فرقًا.

الشكل 1. أداء FastVLM على الصور منخفضة الدقة مقابل الصور عالية الدقة.(المصدر)

يساعد برنامج ترميز الرؤية الجديد من Apple، FastViTHD، FastViTHD، على معالجة الصور عالية الجودة بكفاءة أكبر، باستخدام ذاكرة وطاقة أقل. وعلى وجه التحديد، يتميز FastViTHD بخفة الوزن بما يكفي لتشغيله بسلاسة حتى على الأجهزة الأصغر حجماً.

كما أن FastVLM متاح للجمهور على مستودع GitHub الخاص ب FastVLM، حيث يمكن للمطورين الوصول إلى التعليمات البرمجية المصدرية وإجراء التغييرات واستخدامها في تطبيقاتهم الخاصة وفقًا لشروط ترخيص Apple.

مقارنة FastVLM مع نماذج VLM الأخرى

بالمقارنة مع نماذج لغات الرؤية الأخرى، تم تحسين FastVLM ليعمل على الأجهزة اليومية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة. في اختبارات الأداء، أنتج FastVLM أول كلمة أو مخرجات أسرع بما يصل إلى 85 مرة من نماذج مثل LLaVA-OneVision-0.5B. 

الشكل 2. مقارنة أداء FastVLM مع النماذج الأخرى.(المصدر)

إليك لمحة عن بعض المعايير القياسية التي تم تقييم FastVLM عليها:

  • DocVQA (الإجابة عن الأسئلة المرئية للمستندات): يقوم هذا المعيار بتقييم مدى قدرة النموذج على قراءة وفهم المعلومات النصية في المستندات، مثل النماذج أو الصفحات الممسوحة ضوئيًا.
  • TextVQA (الإجابة على الأسئلة المرئية القائمة على النص): يقوم بتقييم قدرة النموذج على تفسير الصور التي تحتوي على نص مضمن والإجابة عن الأسئلة ذات الصلة بدقة.
  • GQA (الإجابة عن أسئلة الرسم البياني): تختبر هذه المهمة مهارات التفكير لدى النموذج من خلال مطالبته بفهم العلاقات بين الأشياء والمشاهد داخل الصورة.
  • MMMU (الفهم الشامل متعدد التخصصات متعدد الوسائط): يقيس أداء النموذج عبر مجموعة واسعة من الموضوعات والأشكال الأكاديمية، ويجمع بين الفهم البصري والنصي.
  • SeedBench (التقييم القياسي للبيانات المحسّنة للمقارنة المعيارية): يستكشف هذا المعيار القدرات العامة للنموذج في الفهم البصري والاستدلال عبر مجالات متعددة.

عبر هذه المعايير، حقق FastVLM نتائج تنافسية مع استخدام موارد أقل. فهو يجلب الذكاء الاصطناعي المرئي العملي إلى الأجهزة اليومية مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة.

برنامج ترميز الرؤية الفعال FastVLM: FastViTHD

بعد ذلك، دعنا نلقي نظرة فاحصة على FastViTHD، وهو مشفر الرؤية الذي يلعب دورًا حاسمًا في أداء معالجة الصور في FastVLM.

تقوم معظم نماذج لغة الرؤية بتقسيم الصورة إلى آلاف الرقع الصغيرة التي تُسمى الرموز. كلما زاد عدد الرموز، زاد الوقت والطاقة التي يحتاجها النموذج لفهم الصورة. هذا يمكن أن يجعل الأمور بطيئة، خاصةً على الهواتف أو أجهزة الكمبيوتر المحمولة.

الشكل 3. كيف يعالج مشفر الرؤية الصورة.(المصدر)

يتفادى FastViTHD التباطؤ الذي يأتي مع معالجة الكثير من الرموز باستخدام عدد أقل منها، مع الاستمرار في فهم الصورة الكاملة. فهو يجمع بين طريقتين: المحولات، وهي جيدة في نمذجة الأنماط والعلاقات، والطبقات التلافيفية، وهي فعالة في معالجة البيانات المرئية. والنتيجة هي نظام يعمل بشكل أسرع ويستخدم ذاكرة أقل.

ووفقًا لشركة Apple، فإن FastViTHD أصغر بما يصل إلى 3.4 مرات من بعض برامج ترميز الرؤية التقليدية، مع الحفاظ على دقة عالية. فبدلاً من الاعتماد على تقنيات تحسين النموذج مثل تشذيب الرموز (إزالة بقع الصور الأقل أهمية لتسريع المعالجة)، فإنه يحقق الكفاءة من خلال بنية أبسط وأكثر انسيابية.

متغيرات نموذج FastVLM وخط أنابيب التدريب الخاص ب FastVLM

أصدرت Apple FastVLM بثلاثة أحجام مختلفة: 0.5 مليار و1.5 مليار و7 مليار معلمة (حيث يرمز الحرف "B" إلى مليار في إشارة إلى عدد الأوزان القابلة للتدريب في النموذج). تم تصميم كل إصدار ليناسب أنواعًا مختلفة من الأجهزة. يمكن تشغيل النماذج الأصغر حجمًا على الهواتف والأجهزة اللوحية، في حين أن نموذج 7B الأكبر حجمًا هو الأنسب لأجهزة الكمبيوتر المكتبية أو المهام الأكثر تطلبًا.

وهذا يمنح المطورين المرونة في اختيار الأفضل لتطبيقاتهم. يمكنهم بناء شيء سريع وخفيف الوزن للهواتف المحمولة أو شيء أكثر تعقيدًا للأنظمة الأكبر، وكل ذلك باستخدام نفس بنية النموذج الأساسية.

قامت شركة Apple بتدريب متغيرات نموذج FastVLM باستخدام خط أنابيب LLaVA-1.5، وهو إطار عمل لمواءمة نماذج الرؤية واللغة. بالنسبة لمكون اللغة، قاموا بتقييم FastVLM باستخدام نماذج مفتوحة المصدر موجودة مثل Qwen و Vicuna، والمعروفة بتوليد نصوص طبيعية ومتماسكة. يسمح هذا الإعداد لـ FastVLM بمعالجة الصور البسيطة والمعقدة على حد سواء وإنتاج استجابات قابلة للقراءة وذات صلة.

أهمية FastVLM: كفاءة Apple في استخدام الذكاء الاصطناعي

قد تتساءل، ما أهمية معالجة FastVLM الفعالة للصور؟ يعود ذلك إلى مدى سلاسة عمل التطبيقات في الوقت الحقيقي دون الاعتماد على السحابة. يستطيع FastVLM التعامل مع الصور عالية الدقة، حتى 1152 في 1152 بكسل، مع الحفاظ على سرعته وخفة وزنه بما يكفي لتشغيله مباشرةً على جهازك.

هذا يعني أنه يمكن للتطبيقات وصف ما تراه الكاميرا، أو مسح الإيصالات أثناء التقاطها، أو الاستجابة للتغييرات التي تطرأ على الشاشة، كل ذلك مع الحفاظ على كل شيء محلياً. وهو مفيد بشكل خاص في مجالات مثل التعليم وإمكانية الوصول والإنتاجية والتصوير الفوتوغرافي.

نظرًا لأن FastViTHD فعال حتى عندما يتعلق الأمر بالصور الكبيرة، فإنه يساعد في الحفاظ على استجابة الأجهزة وفعاليتها. وهو يعمل مع جميع أحجام الطرازات، بما في ذلك أصغرها، والذي يعمل على أجهزة iPhone للمبتدئين. وهذا يعني أن ميزات الذكاء الاصطناعي نفسها يمكن أن تعمل على الهواتف والأجهزة اللوحية وأجهزة Mac.

تطبيقات FastVLM

يمكن ل FastVLM تشغيل مجموعة واسعة من التطبيقات، وذلك بفضل مزاياه الرئيسية مثل السرعة والكفاءة والخصوصية على الجهاز. إليك بعض الطرق التي يمكن استخدامها بها:

  • قراءة المستندات: يمكنه مسح الإيصالات أو النماذج أو بطاقات الهوية واستخراج المعلومات ذات الصلة فقط. ويمكنه التركيز على مناطق محددة في الصورة، وهو أمر مفيد للتطبيقات التي تحتاج إلى استخراج نص سريع ودقيق.
  • تعليقات الصور: من خلال تحليل الصورة، يمكنه إنشاء وصف واضح لما يوجد في الصورة. وهذا يدعم الميزات في تطبيقات الكاميرا أو معارض الصور أو أي أداة تستفيد من الفهم البصري في الوقت الحقيقي.
  • دعم إمكانية الوصول: يمكن ل FastVLM وصف المحتوى الذي يظهر على الشاشة للمستخدمين المكفوفين أو ضعاف البصر، مما يسهل التنقل بين الأزرار والقوائم وعناصر التخطيط واستخدامها.

مساعدو الذكاء الاصطناعي على الجهاز: يمكن أن يعمل FastVLM بشكل جيد مع مساعدي الذكاء الاصطناعي الذين يحتاجون إلى فهم ما هو موجود على الشاشة بسرعة. ونظراً لأنه يعمل مباشرةً على الجهاز ويحافظ على خصوصية البيانات، يمكنه المساعدة في مهام مثل قراءة النصوص، وتحديد الأزرار أو الرموز، وتوجيه المستخدمين في الوقت الفعلي دون الحاجة إلى إرسال المعلومات إلى السحابة.

الشكل 4. يمكن استخدام FastVLM للتعرف على النصوص والإجابة على الأسئلة المرئية.(المصدر)

الوجبات الرئيسية

يجلب FastVLM الذكاء الاصطناعي بلغة الرؤية على الجهاز إلى أجهزة Apple، ويجمع بين السرعة والخصوصية والكفاءة. وبفضل تصميمه خفيف الوزن وإصداره مفتوح المصدر، فإنه يتيح فهم الصور في الوقت الفعلي عبر تطبيقات الأجهزة المحمولة وسطح المكتب. 

يساعد ذلك على جعل الذكاء الاصطناعي أكثر عملية وسهولة في الاستخدام اليومي، ويمنح المطورين أساسًا متينًا لبناء تطبيقات مفيدة تركز على الخصوصية. بالنظر إلى المستقبل، من المرجح أن تلعب نماذج لغة الرؤية دورًا مهمًا في كيفية تفاعلنا مع التكنولوجيا، مما يجعل الذكاء الاصطناعي أكثر استجابة وإدراكًا للسياق ومفيدًا في المواقف اليومية.

استكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. انضم إلى مجتمعنا النشط واكتشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في صناعة السيارات والذكاء الاصطناعي البصري في التصنيع. لبدء استخدام الرؤية الحاسوبية اليوم، اطلع على خيارات الترخيص لدينا.

دعونا نبني المستقبل
للذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل التعلم الآلي

ابدأ مجاناً
تم نسخ الرابط إلى الحافظة