تكشف Apple عن FastVLM في CVPR 2025. يتميز نموذج الرؤية واللغة مفتوح المصدر هذا بترميز FastViTHD، مما يوفر وقتًا أسرع يصل إلى 85 مرة للرمز الأول.

تكشف Apple عن FastVLM في CVPR 2025. يتميز نموذج الرؤية واللغة مفتوح المصدر هذا بترميز FastViTHD، مما يوفر وقتًا أسرع يصل إلى 85 مرة للرمز الأول.
في مؤتمر CVPR 2025، قدمت Apple نموذج ذكاء اصطناعي مفتوح المصدر جديدًا يسمى FastVLM. تم تصميمه لفهم كل من الصور واللغة، ويعمل على أجهزة Apple مثل أجهزة iPhone و iPad و Mac. هذا يعني أنه يمكنه تقديم نتائج ذكية بسرعة، دون إرسال بياناتك إلى السحابة.
ما يجعل FastVLM مثيرًا للاهتمام بشكل خاص هو مدى سرعته وكفاءته. طورت Apple برنامج ترميز رؤية جديدًا يسمى FastViTHD، والذي يساعد النموذج على تفسير الصور عالية الجودة مع استخدام ذاكرة وطاقة أقل. تتم جميع المعالجات محليًا على الجهاز، مما يؤدي إلى أوقات استجابة أسرع مع الحفاظ على خصوصية المستخدم.
في هذه المقالة، سوف نستكشف كيفية عمل FastVLM، وما الذي يميزه، ولماذا يمكن أن يكون هذا الإصدار من Apple خطوة كبيرة إلى الأمام لتطبيقات الذكاء الاصطناعي اليومية على أجهزتك.
قبل أن نتعمق في ما يجعل FastVLM مميزًا، دعنا نشرح ما يمثله "VLM" في اسمه. يشير إلى نموذج رؤية ولغة، وهو مصمم لفهم وربط المحتوى المرئي باللغة.
تجمع نماذج اللغة المرئية (VLMs) بين الفهم البصري واللغة، مما يمكنها من أداء مهام مثل وصف صورة أو الإجابة على أسئلة حول لقطة شاشة أو استخراج نص من مستند. تعمل نماذج اللغة المرئية عادةً في جزأين: أحدهما يعالج الصورة ويحولها إلى بيانات، بينما يفسر الآخر هذه البيانات لإنشاء استجابة يمكنك قراءتها أو سماعها.
ربما تكون قد استخدمت بالفعل هذا النوع من ابتكارات الذكاء الاصطناعي دون أن تدرك ذلك. غالبًا ما تعتمد التطبيقات التي تفحص الإيصالات أو تقرأ بطاقات الهوية أو تنشئ تسميات توضيحية للصور أو تساعد الأشخاص الذين يعانون من ضعف البصر على التفاعل مع شاشاتهم على نماذج الرؤية اللغوية التي تعمل بهدوء في الخلفية.
قامت Apple ببناء FastVLM لأداء نفس مهام نماذج الرؤية واللغة الأخرى، ولكن بسرعة أكبر وخصوصية أقوى وأداء مُحسَّن على أجهزتها الخاصة. يمكنه فهم محتويات الصورة والرد عليها بالنص، ولكن على عكس العديد من النماذج التي تعتمد على الخوادم السحابية، يمكن لـ FastVLM العمل بالكامل على جهاز iPhone أو iPad أو Mac الخاص بك.
عادةً ما يكون أداء نماذج اللغة المرئية (VLMs) أفضل مع الصور عالية الدقة. على سبيل المثال، كما هو موضح أدناه، لم يتمكن FastVLM من تحديد لافتة شارع بشكل صحيح على أنها "ممنوع الدخول" إلا عند إعطائه نسخة عالية الدقة من الصورة. ومع ذلك، فإن المدخلات عالية الدقة عادةً ما تبطئ النماذج. هذا هو المكان الذي يحدث فيه FastViTHD فرقًا.
يساعد ترميز الرؤية الجديد من Apple، FastViTHD، FastVLM على معالجة الصور عالية الجودة بكفاءة أكبر، باستخدام ذاكرة وطاقة أقل. على وجه التحديد، FastViTHD خفيف الوزن بدرجة كافية ليعمل بسلاسة حتى على الأجهزة الأصغر.
أيضًا، يتوفر FastVLM للجمهور على مستودع FastVLM GitHub، حيث يمكن للمطورين الوصول إلى التعليمات البرمجية المصدر وإجراء تغييرات واستخدامها في تطبيقاتهم الخاصة وفقًا لشروط ترخيص Apple.
بالمقارنة مع نماذج الرؤية اللغوية الأخرى، تم تحسين FastVLM للتشغيل على الأجهزة اليومية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة. في اختبارات الأداء، أنتج FastVLM الكلمة الأولى أو الإخراج أسرع بما يصل إلى 85 مرة من نماذج مثل LLaVA-OneVision-0.5B.
إليك لمحة عن بعض المعايير القياسية التي تم تقييم FastVLM عليها:
عبر هذه المعايير، حقق FastVLM نتائج تنافسية مع استخدام موارد أقل. إنه يجلب الذكاء الاصطناعي المرئي العملي إلى الأجهزة اليومية مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة.
بعد ذلك، دعنا نلقي نظرة فاحصة على FastViTHD، وهو مشفر الرؤية الذي يلعب دورًا حاسمًا في أداء معالجة الصور في FastVLM.
تقوم معظم نماذج لغة الرؤية بتقسيم الصورة إلى آلاف الرقع الصغيرة تسمى الرموز. كلما زاد عدد الرموز، زاد الوقت والطاقة التي يحتاجها النموذج لفهم الصورة. يمكن أن يؤدي ذلك إلى إبطاء الأمور، خاصة على الهواتف أو أجهزة الكمبيوتر المحمولة.
يتجنب FastViTHD التباطؤ الذي يأتي مع معالجة الكثير من الرموز المميزة عن طريق استخدام عدد أقل منها، مع الاستمرار في فهم الصورة بأكملها. فهو يجمع بين منهجين: المحولات، وهي جيدة في نمذجة الأنماط والعلاقات، و الطبقات التلافيفية، وهي فعالة في معالجة البيانات المرئية. والنتيجة هي نظام يعمل بشكل أسرع ويستخدم ذاكرة أقل.
وفقًا لـ Apple، فإن FastViTHD أصغر بما يصل إلى 3.4 مرة من بعض مشفرات الرؤية التقليدية، مع الحفاظ على دقة عالية. وبدلاً من الاعتماد على تقنيات تحسين النموذج مثل تقليم الرموز (إزالة رقع الصور الأقل أهمية لتسريع المعالجة)، فإنه يحقق الكفاءة من خلال بنية أبسط وأكثر انسيابية.
أصدرت Apple نموذج FastVLM بثلاثة أحجام مختلفة: 0.5B و 1.5B و 7B من المعلمات (حيث تشير "B" إلى مليار، في إشارة إلى عدد الأوزان القابلة للتدريب في النموذج). تم تصميم كل إصدار ليناسب أنواعًا مختلفة من الأجهزة. يمكن تشغيل النماذج الأصغر على الهواتف والأجهزة اللوحية، بينما النموذج الأكبر 7B مناسب بشكل أفضل لأجهزة سطح المكتب أو المهام الأكثر تطلبًا.
يمنح هذا المطورين المرونة لاختيار ما هو الأفضل لتطبيقاتهم. يمكنهم بناء شيء سريع وخفيف الوزن للهاتف المحمول أو شيء أكثر تعقيدًا للأنظمة الأكبر، كل ذلك أثناء استخدام نفس بنية النموذج الأساسية.
قامت Apple بتدريب متغيرات نموذج FastVLM باستخدام خط أنابيب LLaVA-1.5، وهو إطار عمل لمواءمة الرؤية ونماذج اللغة. بالنسبة لمكون اللغة، قاموا بتقييم FastVLM باستخدام النماذج مفتوحة المصدر الحالية مثل Qwen و Vicuna، المعروفة بتوليد نص طبيعي ومتماسك. يسمح هذا الإعداد لـ FastVLM بمعالجة الصور البسيطة والمعقدة وإنتاج استجابات مقروءة وذات صلة.
قد تتساءل، لماذا تهم معالجة الصور الفعالة في FastVLM؟ الأمر يتعلق بمدى سلاسة عمل التطبيقات في الوقت الفعلي دون الاعتماد على السحابة. يمكن لـ FastVLM التعامل مع الصور عالية الدقة، حتى 1152 × 1152 بكسل، مع الحفاظ على السرعة والخفة الكافية للتشغيل مباشرة على جهازك.
هذا يعني أن التطبيقات يمكنها وصف ما تراه الكاميرا، أو مسح الإيصالات ضوئيًا أثناء التقاطها، أو الاستجابة للتغييرات على الشاشة، كل ذلك مع الحفاظ على كل شيء محليًا. إنه مفيد بشكل خاص في مجالات مثل التعليم و إمكانية الوصول (accessibility) والإنتاجية والتصوير الفوتوغرافي.
نظرًا لأن FastViTHD فعال حتى عندما يتعلق الأمر بالصور الكبيرة، فإنه يساعد في الحفاظ على استجابة الأجهزة وبرودتها. إنه يعمل مع جميع أحجام النماذج، بما في ذلك أصغرها، والذي يعمل على أجهزة iPhone للمبتدئين. وهذا يعني أن ميزات الذكاء الاصطناعي نفسها يمكن أن تعمل عبر الهواتف والأجهزة اللوحية وأجهزة Mac.
يمكن لـ FastVLM تشغيل مجموعة واسعة من التطبيقات، وذلك بفضل فوائده الرئيسية مثل السرعة والكفاءة والخصوصية على الجهاز. فيما يلي بعض الطرق التي يمكن استخدامها:
مساعدو الذكاء الاصطناعي على الجهاز: يمكن أن يعمل FastVLM بشكل جيد مع مساعدي الذكاء الاصطناعي الذين يحتاجون إلى فهم سريع لما يظهر على الشاشة. نظرًا لأنه يعمل مباشرة على الجهاز ويحافظ على خصوصية البيانات، فيمكنه المساعدة في مهام مثل قراءة النصوص أو تحديد الأزرار أو الرموز أو توجيه المستخدمين في الوقت الفعلي دون الحاجة إلى إرسال معلومات إلى السحابة.
يجلب FastVLM الذكاء الاصطناعي للرؤية واللغة على الجهاز إلى أجهزة Apple، ويجمع بين السرعة والخصوصية والكفاءة. بفضل تصميمه خفيف الوزن وإصداره مفتوح المصدر، فإنه يتيح فهم الصور في الوقت الفعلي عبر تطبيقات الهاتف المحمول وسطح المكتب.
يساعد هذا في جعل الذكاء الاصطناعي أكثر عملية ويمكن الوصول إليه للاستخدام اليومي، ويمنح المطورين أساسًا متينًا لبناء تطبيقات مفيدة تركز على الخصوصية. بالنظر إلى المستقبل، من المحتمل أن تلعب نماذج رؤية اللغة دورًا مهمًا في كيفية تفاعلنا مع التكنولوجيا، مما يجعل الذكاء الاصطناعي أكثر استجابة ووعيًا بالسياق ومفيدًا في المواقف اليومية.
استكشف مستودع GitHub الخاص بنا لمعرفة المزيد حول الذكاء الاصطناعي. انضم إلى مجتمعنا النشط واكتشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في صناعة السيارات و Vision AI في التصنيع. للبدء في رؤية الكمبيوتر اليوم، تحقق من خيارات الترخيص الخاصة بنا.