استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

FastVLM: Apple تقدم نموذج اللغة المرئية السريع الجديد

أبيرامي فينا

4 دقائق قراءة

8 أغسطس، 2025

تكشف Apple عن FastVLM في CVPR 2025. يتميز نموذج الرؤية واللغة مفتوح المصدر هذا بترميز FastViTHD، مما يوفر وقتًا أسرع يصل إلى 85 مرة للرمز الأول.

في مؤتمر CVPR 2025، قدمت Apple نموذج ذكاء اصطناعي مفتوح المصدر جديدًا يسمى FastVLM. تم تصميمه لفهم كل من الصور واللغة، ويعمل على أجهزة Apple مثل أجهزة iPhone و iPad و Mac. هذا يعني أنه يمكنه تقديم نتائج ذكية بسرعة، دون إرسال بياناتك إلى السحابة.

ما يجعل FastVLM مثيرًا للاهتمام بشكل خاص هو مدى سرعته وكفاءته. طورت Apple برنامج ترميز رؤية جديدًا يسمى FastViTHD، والذي يساعد النموذج على تفسير الصور عالية الجودة مع استخدام ذاكرة وطاقة أقل. تتم جميع المعالجات محليًا على الجهاز، مما يؤدي إلى أوقات استجابة أسرع مع الحفاظ على خصوصية المستخدم.

في هذه المقالة، سوف نستكشف كيفية عمل FastVLM، وما الذي يميزه، ولماذا يمكن أن يكون هذا الإصدار من Apple خطوة كبيرة إلى الأمام لتطبيقات الذكاء الاصطناعي اليومية على أجهزتك.

فهم نماذج اللغة المرئية (VLMs)

قبل أن نتعمق في ما يجعل FastVLM مميزًا، دعنا نشرح ما يمثله "VLM" في اسمه. يشير إلى نموذج رؤية ولغة، وهو مصمم لفهم وربط المحتوى المرئي باللغة.

تجمع نماذج اللغة المرئية (VLMs) بين الفهم البصري واللغة، مما يمكنها من أداء مهام مثل وصف صورة أو الإجابة على أسئلة حول لقطة شاشة أو استخراج نص من مستند. تعمل نماذج اللغة المرئية عادةً في جزأين: أحدهما يعالج الصورة ويحولها إلى بيانات، بينما يفسر الآخر هذه البيانات لإنشاء استجابة يمكنك قراءتها أو سماعها.

ربما تكون قد استخدمت بالفعل هذا النوع من ابتكارات الذكاء الاصطناعي دون أن تدرك ذلك. غالبًا ما تعتمد التطبيقات التي تفحص الإيصالات أو تقرأ بطاقات الهوية أو تنشئ تسميات توضيحية للصور أو تساعد الأشخاص الذين يعانون من ضعف البصر على التفاعل مع شاشاتهم على نماذج الرؤية اللغوية التي تعمل بهدوء في الخلفية.

ما هو FastVLM؟

قامت Apple ببناء FastVLM لأداء نفس مهام نماذج الرؤية واللغة الأخرى، ولكن بسرعة أكبر وخصوصية أقوى وأداء مُحسَّن على أجهزتها الخاصة. يمكنه فهم محتويات الصورة والرد عليها بالنص، ولكن على عكس العديد من النماذج التي تعتمد على الخوادم السحابية، يمكن لـ FastVLM العمل بالكامل على جهاز iPhone أو iPad أو Mac الخاص بك.

عادةً ما يكون أداء نماذج اللغة المرئية (VLMs) أفضل مع الصور عالية الدقة. على سبيل المثال، كما هو موضح أدناه، لم يتمكن FastVLM من تحديد لافتة شارع بشكل صحيح على أنها "ممنوع الدخول" إلا عند إعطائه نسخة عالية الدقة من الصورة. ومع ذلك، فإن المدخلات عالية الدقة عادةً ما تبطئ النماذج. هذا هو المكان الذي يحدث فيه FastViTHD فرقًا.

الشكل 1. أداء FastVLM على الصور منخفضة وعالية الدقة. (المصدر)

يساعد ترميز الرؤية الجديد من Apple، FastViTHD، FastVLM على معالجة الصور عالية الجودة بكفاءة أكبر، باستخدام ذاكرة وطاقة أقل. على وجه التحديد، FastViTHD خفيف الوزن بدرجة كافية ليعمل بسلاسة حتى على الأجهزة الأصغر.

أيضًا، يتوفر FastVLM للجمهور على مستودع FastVLM GitHub، حيث يمكن للمطورين الوصول إلى التعليمات البرمجية المصدر وإجراء تغييرات واستخدامها في تطبيقاتهم الخاصة وفقًا لشروط ترخيص Apple.

مقارنة FastVLM بنماذج VLM الأخرى

بالمقارنة مع نماذج الرؤية اللغوية الأخرى، تم تحسين FastVLM للتشغيل على الأجهزة اليومية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة. في اختبارات الأداء، أنتج FastVLM الكلمة الأولى أو الإخراج أسرع بما يصل إلى 85 مرة من نماذج مثل LLaVA-OneVision-0.5B. 

الشكل 2. مقارنة أداء FastVLM مع النماذج الأخرى. (المصدر)

إليك لمحة عن بعض المعايير القياسية التي تم تقييم FastVLM عليها:

  • DocVQA (الإجابة المرئية على الأسئلة في المستندات): يقيم هذا المعيار مدى قدرة النموذج على قراءة وفهم المعلومات النصية في المستندات، مثل النماذج أو الصفحات الممسوحة ضوئيًا.
  • TextVQA (الإجابة على الأسئلة المرئية المستندة إلى النص): يقيم قدرة النموذج على تفسير الصور التي تحتوي على نص مضمن والإجابة على الأسئلة ذات الصلة بدقة.
  • GQA (الإجابة على الأسئلة الرسومية): تختبر هذه المهمة مهارات الاستدلال لدى النموذج من خلال مطالبته بفهم العلاقات بين الكائنات والمشاهد داخل الصورة.
  • MMMU (الفهم الضخم متعدد التخصصات ومتعدد الوسائط): يقيس أداء النموذج عبر مجموعة واسعة من الموضوعات والتنسيقات الأكاديمية، ويجمع بين الفهم المرئي والنصي.
  • SeedBench (التقييم القياسي للبيانات المحسنة للمعايير): يستكشف هذا المعيار القدرات العامة للنموذج في الفهم البصري والاستدلال عبر مجالات متعددة.

عبر هذه المعايير، حقق FastVLM نتائج تنافسية مع استخدام موارد أقل. إنه يجلب الذكاء الاصطناعي المرئي العملي إلى الأجهزة اليومية مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة.

وحدة ترميز الرؤية الفعالة في FastVLM: FastViTHD

بعد ذلك، دعنا نلقي نظرة فاحصة على FastViTHD، وهو مشفر الرؤية الذي يلعب دورًا حاسمًا في أداء معالجة الصور في FastVLM.

تقوم معظم نماذج لغة الرؤية بتقسيم الصورة إلى آلاف الرقع الصغيرة تسمى الرموز. كلما زاد عدد الرموز، زاد الوقت والطاقة التي يحتاجها النموذج لفهم الصورة. يمكن أن يؤدي ذلك إلى إبطاء الأمور، خاصة على الهواتف أو أجهزة الكمبيوتر المحمولة.

الشكل 3. كيف يقوم مشفر الرؤية بمعالجة الصورة. (المصدر)

يتجنب FastViTHD التباطؤ الذي يأتي مع معالجة الكثير من الرموز المميزة عن طريق استخدام عدد أقل منها، مع الاستمرار في فهم الصورة بأكملها. فهو يجمع بين منهجين: المحولات، وهي جيدة في نمذجة الأنماط والعلاقات، و الطبقات التلافيفية، وهي فعالة في معالجة البيانات المرئية. والنتيجة هي نظام يعمل بشكل أسرع ويستخدم ذاكرة أقل.

وفقًا لـ Apple، فإن FastViTHD أصغر بما يصل إلى 3.4 مرة من بعض مشفرات الرؤية التقليدية، مع الحفاظ على دقة عالية. وبدلاً من الاعتماد على تقنيات تحسين النموذج مثل تقليم الرموز (إزالة رقع الصور الأقل أهمية لتسريع المعالجة)، فإنه يحقق الكفاءة من خلال بنية أبسط وأكثر انسيابية.

متغيرات نموذج FastVLM وخط أنابيب التدريب

أصدرت Apple نموذج FastVLM بثلاثة أحجام مختلفة: 0.5B و 1.5B و 7B من المعلمات (حيث تشير "B" إلى مليار، في إشارة إلى عدد الأوزان القابلة للتدريب في النموذج). تم تصميم كل إصدار ليناسب أنواعًا مختلفة من الأجهزة. يمكن تشغيل النماذج الأصغر على الهواتف والأجهزة اللوحية، بينما النموذج الأكبر 7B مناسب بشكل أفضل لأجهزة سطح المكتب أو المهام الأكثر تطلبًا.

يمنح هذا المطورين المرونة لاختيار ما هو الأفضل لتطبيقاتهم. يمكنهم بناء شيء سريع وخفيف الوزن للهاتف المحمول أو شيء أكثر تعقيدًا للأنظمة الأكبر، كل ذلك أثناء استخدام نفس بنية النموذج الأساسية.

قامت Apple بتدريب متغيرات نموذج FastVLM باستخدام خط أنابيب LLaVA-1.5، وهو إطار عمل لمواءمة الرؤية ونماذج اللغة. بالنسبة لمكون اللغة، قاموا بتقييم FastVLM باستخدام النماذج مفتوحة المصدر الحالية مثل Qwen و Vicuna، المعروفة بتوليد نص طبيعي ومتماسك. يسمح هذا الإعداد لـ FastVLM بمعالجة الصور البسيطة والمعقدة وإنتاج استجابات مقروءة وذات صلة.

أهمية FastVLM: نظرة Apple الفعالة على الذكاء الاصطناعي

قد تتساءل، لماذا تهم معالجة الصور الفعالة في FastVLM؟ الأمر يتعلق بمدى سلاسة عمل التطبيقات في الوقت الفعلي دون الاعتماد على السحابة. يمكن لـ FastVLM التعامل مع الصور عالية الدقة، حتى 1152 × 1152 بكسل، مع الحفاظ على السرعة والخفة الكافية للتشغيل مباشرة على جهازك.

هذا يعني أن التطبيقات يمكنها وصف ما تراه الكاميرا، أو مسح الإيصالات ضوئيًا أثناء التقاطها، أو الاستجابة للتغييرات على الشاشة، كل ذلك مع الحفاظ على كل شيء محليًا. إنه مفيد بشكل خاص في مجالات مثل التعليم و إمكانية الوصول (accessibility) والإنتاجية والتصوير الفوتوغرافي.

نظرًا لأن FastViTHD فعال حتى عندما يتعلق الأمر بالصور الكبيرة، فإنه يساعد في الحفاظ على استجابة الأجهزة وبرودتها. إنه يعمل مع جميع أحجام النماذج، بما في ذلك أصغرها، والذي يعمل على أجهزة iPhone للمبتدئين. وهذا يعني أن ميزات الذكاء الاصطناعي نفسها يمكن أن تعمل عبر الهواتف والأجهزة اللوحية وأجهزة Mac.

تطبيقات FastVLM

يمكن لـ FastVLM تشغيل مجموعة واسعة من التطبيقات، وذلك بفضل فوائده الرئيسية مثل السرعة والكفاءة والخصوصية على الجهاز. فيما يلي بعض الطرق التي يمكن استخدامها:

  • قراءة المستندات: يمكنه فحص الإيصالات أو النماذج أو بطاقات الهوية واستخراج المعلومات ذات الصلة فقط. يمكنه التركيز على مناطق معينة في الصورة، وهو أمر مفيد للتطبيقات التي تحتاج إلى استخراج نصوص سريع ودقيق.
  • تسميات الصور: من خلال تحليل صورة، يمكنه إنشاء وصف واضح لما هو موجود في الصورة. يدعم هذا الميزات في تطبيقات الكاميرا أو معارض الصور أو أي أداة تستفيد من الفهم المرئي في الوقت الفعلي.
  • دعم إمكانية الوصول: يمكن لـ FastVLM وصف المحتوى المعروض على الشاشة للمستخدمين المكفوفين أو ضعاف البصر، مما يجعل الأزرار والقوائم وعناصر التخطيط أسهل في التنقل والاستخدام.

مساعدو الذكاء الاصطناعي على الجهاز: يمكن أن يعمل FastVLM بشكل جيد مع مساعدي الذكاء الاصطناعي الذين يحتاجون إلى فهم سريع لما يظهر على الشاشة. نظرًا لأنه يعمل مباشرة على الجهاز ويحافظ على خصوصية البيانات، فيمكنه المساعدة في مهام مثل قراءة النصوص أو تحديد الأزرار أو الرموز أو توجيه المستخدمين في الوقت الفعلي دون الحاجة إلى إرسال معلومات إلى السحابة.

الشكل 4. يمكن استخدام FastVLM للتعرف على النصوص والإجابة على الأسئلة المرئية. (المصدر)

النقاط الرئيسية

يجلب FastVLM الذكاء الاصطناعي للرؤية واللغة على الجهاز إلى أجهزة Apple، ويجمع بين السرعة والخصوصية والكفاءة. بفضل تصميمه خفيف الوزن وإصداره مفتوح المصدر، فإنه يتيح فهم الصور في الوقت الفعلي عبر تطبيقات الهاتف المحمول وسطح المكتب. 

يساعد هذا في جعل الذكاء الاصطناعي أكثر عملية ويمكن الوصول إليه للاستخدام اليومي، ويمنح المطورين أساسًا متينًا لبناء تطبيقات مفيدة تركز على الخصوصية. بالنظر إلى المستقبل، من المحتمل أن تلعب نماذج رؤية اللغة دورًا مهمًا في كيفية تفاعلنا مع التكنولوجيا، مما يجعل الذكاء الاصطناعي أكثر استجابة ووعيًا بالسياق ومفيدًا في المواقف اليومية.

استكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. انضم إلى مجتمعنا النشط واكتشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في صناعة السيارات و Vision AI في التصنيع. للبدء في رؤية الكمبيوتر اليوم، تحقق من خيارات الترخيص الخاصة بنا.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة