FastVLM: Apple تقدم نموذجها الجديد والسريع للرؤية واللغة
تكشف Apple عن FastVLM في مؤتمر CVPR 2025. يتميز هذا النموذج مفتوح المصدر للرؤية واللغة بمشفر FastViTHD، مما يوفر سرعة تصل إلى 85 ضعفاً في الوصول إلى الرمز الأول.

خلال مؤتمر CVPR 2025، قدمت Apple نموذج ذكاء اصطناعي مفتوح المصدر جديد يُسمى FastVLM. تم تصميم هذا النموذج لفهم الصور واللغة معاً، ويعمل على أجهزة Apple مثل هواتف iPhone وأجهزة iPad وMac. وهذا يعني أنه قادر على تقديم نتائج ذكية بسرعة، دون الحاجة إلى إرسال بياناتك إلى السحابة.
ما يجعل FastVLM مثيراً للاهتمام بشكل خاص هو سرعته وكفاءته. فقد طورت Apple مشفراً بصرياً جديداً يُسمى FastViTHD، والذي يساعد النموذج على تفسير الصور عالية الجودة مع استهلاك أقل للذاكرة والطاقة. تتم جميع عمليات المعالجة محلياً على الجهاز، مما يؤدي إلى استجابة أسرع مع الحفاظ على خصوصية المستخدم.
في هذه المقالة، سنستكشف آلية عمل FastVLM، وما يميزه، ولماذا يمكن أن يكون هذا الإصدار من Apple خطوة مهمة للأمام في تطبيقات الذكاء الاصطناعي اليومية على أجهزتك.
Link to this sectionفهم نماذج الرؤية واللغة (VLMs)#
قبل أن نتعمق فيما يجعل FastVLM مميزاً، دعونا نوضح ماذا يعني اختصار "VLM" في اسمه. إنه يشير إلى نموذج الرؤية واللغة، المصمم لفهم وربط المحتوى المرئي باللغة.
تجمع نماذج VLM بين الفهم البصري واللغة، مما يمكنها من أداء مهام مثل وصف صورة، أو الإجابة على أسئلة حول لقطة شاشة، أو استخراج نصوص من مستند. تعمل نماذج الرؤية واللغة عادةً في جزأين: أحدهما يعالج الصورة ويحولها إلى بيانات، بينما يفسر الآخر تلك البيانات لإنتاج استجابة يمكنك قراءتها أو سماعها.
ربما تكون قد استخدمت هذا النوع من ابتكارات الذكاء الاصطناعي دون أن تدرك ذلك. التطبيقات التي تمسح الإيصالات ضوئياً، أو تقرأ بطاقات الهوية، أو تنشئ تسميات توضيحية للصور، أو تساعد الأشخاص ذوي الرؤية المحدودة على التفاعل مع شاشاتهم، تعتمد غالباً على نماذج الرؤية واللغة التي تعمل بهدوء في الخلفية.
Link to this sectionما هو FastVLM؟#
قامت Apple ببناء FastVLM لأداء نفس مهام نماذج الرؤية واللغة الأخرى، ولكن بسرعة أكبر وخصوصية أقوى وأداء محسّن على أجهزتها الخاصة. يمكنه فهم محتويات الصورة والرد بالنص، ولكن على عكس العديد من النماذج التي تعتمد على خوادم سحابية، يمكن لـ FastVLM العمل بالكامل على جهاز iPhone أو iPad أو Mac الخاص بك.
تعمل نماذج VLM بشكل عام بشكل أفضل مع الصور عالية الدقة. على سبيل المثال، كما هو موضح أدناه، لم يتمكن FastVLM من التعرف بشكل صحيح على لافتة الشارع كـ "ممنوع الدخول" إلا عند تزويده بنسخة عالية الدقة من الصورة. ومع ذلك، فإن المدخلات عالية الدقة عادةً ما تبطئ النماذج. وهنا يظهر دور FastViTHD في إحداث فرق.

الشكل 1. أداء FastVLM على الصور منخفضة مقابل عالية الدقة. (المصدر)
يساعد مشفر الرؤية الجديد من Apple، FastViTHD، نموذج FastVLM على معالجة الصور عالية الجودة بكفاءة أكبر، مستهلكاً ذاكرة وطاقة أقل. وتحديداً، يتميز FastViTHD بخفة الوزن الكافية للعمل بسلاسة حتى على الأجهزة الصغيرة.
أيضاً، يتوفر FastVLM للجمهور على مستودع GitHub الخاص بـ FastVLM، حيث يمكن للمطورين الوصول إلى الكود المصدري، وإجراء تغييرات، واستخدامه في تطبيقاتهم الخاصة وفقاً لشروط ترخيص Apple.
Link to this sectionمقارنة FastVLM بنماذج VLM الأخرى#
بالمقارنة مع نماذج الرؤية واللغة الأخرى، تم تحسين FastVLM ليعمل على الأجهزة اليومية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة. في اختبارات الأداء، أنتج FastVLM كلمته الأولى أو مخرجاته بسرعة تصل إلى 85 ضعفاً مقارنة بنماذج مثل LLaVA-OneVision-0.5B.

الشكل 2. مقارنة أداء FastVLM مع نماذج أخرى. (المصدر)
إليك لمحة عن بعض المعايير القياسية التي تم تقييم FastVLM بناءً عليها:
- DocVQA (الإجابة على الأسئلة المرئية للمستندات): يقيم هذا المعيار مدى قدرة النموذج على قراءة وفهم المعلومات النصية في المستندات، مثل النماذج أو الصفحات الممسوحة ضوئياً.
- TextVQA (الإجابة على الأسئلة المرئية المستندة إلى نص): يقيم قدرة النموذج على تفسير الصور التي تحتوي على نص مضمن والإجابة على الأسئلة ذات الصلة بدقة.
- GQA (الإجابة على الأسئلة المتعلقة بالرسوم البيانية): تختبر هذه المهمة مهارات الاستنتاج لدى النموذج من خلال مطالبته بفهم العلاقات بين الكائنات والمشاهد داخل الصورة.
- MMMU (الفهم متعدد الوسائط لمواضيع متعددة): يقيس أداء النموذج عبر مجموعة واسعة من المواضيع والتنسيقات الأكاديمية، حيث يجمع بين الفهم البصري والنصي.
- SeedBench (التقييم القياسي للبيانات المحسّنة للمقارنة المعيارية): يستكشف هذا المعيار القدرات العامة للنموذج في الفهم البصري والاستنتاج عبر مجالات متعددة.
عبر هذه المعايير، حقق FastVLM نتائج تنافسية مع استخدام موارد أقل. إنه يجلب ذكاء الرؤية العملي إلى الأجهزة اليومية مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة.
Link to this sectionمشفر الرؤية الفعال لـ FastVLM: FastViTHD#
بعد ذلك، دعونا نلقي نظرة فاحصة على FastViTHD، وهو مشفر الرؤية الذي يلعب دوراً حاسماً في أداء معالجة الصور في FastVLM.
تقوم معظم نماذج الرؤية واللغة بتقسيم الصورة إلى آلاف الرقع الصغيرة المسماة tokens. كلما زاد عدد هذه الرقع، زاد الوقت والطاقة التي يحتاجها النموذج لفهم الصورة. وهذا يمكن أن يجعل الأمور بطيئة، خاصة على الهواتف أو أجهزة الكمبيوتر المحمولة.

الشكل 3. كيف يعالج مشفر الرؤية صورة. (المصدر)
يتجنب FastViTHD التباطؤ الذي يصاحب معالجة عدد كبير جداً من الـ tokens باستخدام عدد أقل منها، مع الاستمرار في فهم الصورة الكاملة. فهو يجمع بين نهجين: Transformer، التي تعد جيدة في نمذجة الأنماط والعلاقات، والطبقات الالتفافية، التي تتسم بالكفاءة في معالجة البيانات البصرية. والنتيجة هي نظام يعمل بشكل أسرع ويستهلك ذاكرة أقل.
وفقاً لـ Apple، فإن FastViTHD أصغر بما يصل إلى 3.4 مرة من بعض مشفرات الرؤية التقليدية، مع الحفاظ على دقة عالية. وبدلاً من الاعتماد على تقنيات تحسين النموذج مثل تقليم الـ tokens (إزالة رقع الصور الأقل أهمية لتسريع المعالجة)، فإنه يحقق الكفاءة من خلال بنية أبسط وأكثر انسيابية.
Link to this sectionمتغيرات نموذج FastVLM وخط أنابيب التدريب#
أصدرت Apple نموذج FastVLM بثلاثة أحجام مختلفة: 0.5B و1.5B و7B بارامتر (حيث يرمز "B" إلى مليار، في إشارة إلى عدد الأوزان القابلة للتدريب في النموذج). تم تصميم كل إصدار ليتناسب مع أنواع مختلفة من الأجهزة. يمكن للنماذج الأصغر العمل على الهواتف والأجهزة اللوحية، بينما يعتبر نموذج 7B الأكبر أكثر ملاءمة لأجهزة الكمبيوتر المكتبية أو المهام الأكثر تطلباً.
وهذا يمنح المطورين المرونة لاختيار ما يناسب تطبيقاتهم. يمكنهم بناء شيء سريع وخفيف للجوال أو شيء أكثر تعقيداً للأنظمة الأكبر، كل ذلك مع استخدام بنية النموذج الأساسية نفسها.
قامت Apple بتدريب متغيرات نموذج FastVLM باستخدام خط أنابيب LLaVA-1.5، وهو إطار عمل لمواءمة نماذج الرؤية ونماذج اللغة. بالنسبة لمكون اللغة، قاموا بتقييم FastVLM باستخدام نماذج مفتوحة المصدر موجودة مثل Qwen وVicuna، والمعروفة بتوليد نصوص طبيعية ومتماسكة. يسمح هذا الإعداد لـ FastVLM بمعالجة الصور البسيطة والمعقدة وإنتاج استجابات قابلة للقراءة وذات صلة.
Link to this sectionأهمية FastVLM: نهج Apple الفعال في الذكاء الاصطناعي#
قد تتساءل، لماذا تعتبر معالجة الصور الفعالة لـ FastVLM أمراً مهماً؟ يعود الأمر إلى مدى سلاسة عمل التطبيقات في الوقت الفعلي دون الاعتماد على السحابة. يمكن لـ FastVLM التعامل مع الصور عالية الدقة، التي تصل إلى 1152 في 1152 بكسل، مع البقاء سريعاً وخفيفاً بما يكفي للعمل مباشرة على جهازك.
هذا يعني أن التطبيقات يمكنها وصف ما تراه الكاميرا، أو مسح الإيصالات ضوئياً أثناء التقاطها، أو الاستجابة للتغيرات على الشاشة، كل ذلك مع إبقاء كل شيء محلياً. إنه مفيد بشكل خاص لمجالات مثل التعليم، وإمكانية الوصول، والإنتاجية، والتصوير الفوتوغرافي.
نظراً لأن FastViTHD فعال حتى مع الصور الكبيرة، فهو يساعد في الحفاظ على استجابة الأجهزة وبرودتها. إنه يعمل مع جميع أحجام النماذج، بما في ذلك أصغرها، والذي يعمل على هواتف iPhone الأساسية. وهذا يعني أن ميزات الذكاء الاصطناعي نفسها يمكن أن تعمل عبر الهواتف والأجهزة اللوحية وأجهزة Mac.
Link to this sectionتطبيقات FastVLM#
يمكن لـ FastVLM تشغيل مجموعة واسعة من التطبيقات، بفضل مزاياه الرئيسية مثل السرعة والكفاءة وخصوصية الجهاز. إليك بعض الطرق التي يمكن استخدامه بها:
-
قراءة المستندات: يمكنه مسح الإيصالات أو النماذج أو بطاقات الهوية واستخراج المعلومات ذات الصلة فقط. يمكنه التركيز على مناطق محددة في الصورة، وهو أمر مفيد للتطبيقات التي تتطلب استخراج نصوص سريع ودقيق.
-
تسميات الصور التوضيحية: من خلال تحليل صورة، يمكنه إنشاء وصف واضح لما يوجد في الصورة. يدعم هذا ميزات في تطبيقات الكاميرا، أو معارض الصور، أو أي أداة تستفيد من الفهم البصري في الوقت الفعلي.
-
دعم إمكانية الوصول: يمكن لـ FastVLM وصف المحتوى الذي يظهر على الشاشة للمستخدمين المكفوفين أو ضعاف البصر، مما يجعل الأزرار والقوائم وعناصر التخطيط أسهل في التنقل والاستخدام.
-
مساعدو الذكاء الاصطناعي على الجهاز: يمكن لـ FastVLM العمل بشكل جيد مع مساعدي الذكاء الاصطناعي الذين يحتاجون إلى فهم ما يظهر على الشاشة بسرعة. ونظراً لأنه يعمل مباشرة على الجهاز ويحافظ على خصوصية البيانات، فيمكنه المساعدة في مهام مثل قراءة النصوص، وتحديد الأزرار أو الأيقونات، وتوجيه المستخدمين في الوقت الفعلي دون الحاجة إلى إرسال معلومات إلى السحابة.

الشكل 4. يمكن استخدام FastVLM للتعرف على النص والإجابة على الأسئلة المرئية. (المصدر)
Link to this sectionأبرز النقاط#
يجلب FastVLM ذكاء الرؤية واللغة إلى أجهزة Apple، جامعاً بين السرعة والخصوصية والكفاءة. وبفضل تصميمه خفيف الوزن وإصداره مفتوح المصدر، فإنه يتيح فهم الصور في الوقت الفعلي عبر تطبيقات الجوال والكمبيوتر المكتبي.
يساعد هذا في جعل الذكاء الاصطناعي أكثر عملية وسهولة في الاستخدام اليومي، ويمنح المطورين أساساً قوياً لبناء تطبيقات مفيدة تركز على الخصوصية. بالنظر إلى المستقبل، من المرجح أن تلعب نماذج الرؤية واللغة دوراً مهماً في كيفية تفاعلنا مع التكنولوجيا، مما يجعل الذكاء الاصطناعي أكثر استجابة ووعياً بالسياق ومفيداً في المواقف اليومية.
استكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. انضم إلى مجتمعنا النشط واكتشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في صناعة السيارات والذكاء الاصطناعي البصري في التصنيع. للبدء في الرؤية الحاسوبية اليوم، تحقق من خيارات الترخيص لدينا.






