تكشف Apple عن FastVLM في معرض CVPR 2025. يتميز هذا النموذج المفتوح المصدر للغة الرؤية بتشفير FastViTHD، مما يوفر وقتاً أسرع حتى 85 ضعفاً من أول رمز.

تكشف Apple عن FastVLM في معرض CVPR 2025. يتميز هذا النموذج المفتوح المصدر للغة الرؤية بتشفير FastViTHD، مما يوفر وقتاً أسرع حتى 85 ضعفاً من أول رمز.
في مؤتمر CVPR 2025، قدمت Apple في مؤتمر CVPR 2025 نموذج ذكاء اصطناعي جديد مفتوح المصدر يسمى FastVLM. وهو مصمم لفهم كل من الصور واللغة، ويعمل على أجهزة Apple مثل أجهزة iPhone وiPad وMac. وهذا يعني أنه يمكنه تقديم نتائج ذكية بسرعة، دون إرسال بياناتك إلى السحابة.
ما يجعل FastVLM مثيراً للاهتمام بشكل خاص هو مدى سرعته وكفاءته. طورت Apple برنامج تشفير رؤية جديد يسمى FastViTHD، والذي يساعد النموذج على تفسير الصور عالية الجودة مع استخدام ذاكرة وطاقة أقل. تتم جميع عمليات المعالجة محلياً على الجهاز، مما يؤدي إلى أوقات استجابة أسرع مع الحفاظ على خصوصية المستخدم.
سنستكشف في هذه المقالة كيفية عمل FastVLM، وما الذي يميزه، ولماذا يمكن أن يكون إصدار Apple هذا خطوة مهمة إلى الأمام لتطبيقات الذكاء الاصطناعي اليومية على أجهزتك.
قبل أن نغوص في ما يجعل FastVLM مميزًا، دعنا نتعرف على ما يرمز إليه "VLM" في اسمه. يشير إلى نموذج لغة الرؤية، وهو مصمم لفهم المحتوى المرئي وربطه باللغة.
تجمع النماذج اللغوية البصرية المرئية بين الفهم البصري واللغة، مما يمكّنها من أداء مهام مثل وصف صورة أو الإجابة عن أسئلة حول لقطة شاشة أو استخراج نص من مستند. تعمل النماذج البصرية اللغوية عادةً في جزأين: أحدهما يعالج الصورة ويحولها إلى بيانات، بينما يفسر الآخر تلك البيانات لتوليد استجابة يمكنك قراءتها أو سماعها.
ربما تكون قد استخدمت بالفعل هذا النوع من ابتكارات الذكاء الاصطناعي دون أن تدرك ذلك. فالتطبيقات التي تفحص الإيصالات، أو تقرأ بطاقات الهوية، أو تنشئ تعليقات على الصور، أو تساعد الأشخاص الذين يعانون من ضعف البصر على التفاعل مع شاشاتهم، غالباً ما تعتمد على نماذج لغة الرؤية التي تعمل بهدوء في الخلفية.
صممت Apple برنامج FastVLM لأداء المهام نفسها التي تؤديها نماذج لغة الرؤية الأخرى، ولكن بسرعة أكبر وخصوصية أقوى وأداء محسّن على أجهزتها الخاصة. ويمكنه فهم محتويات الصورة والاستجابة بالنص، ولكن على عكس العديد من النماذج التي تعتمد على الخوادم السحابية، يمكن تشغيل FastVLM بالكامل على جهاز iPhone أو iPad أو Mac.
عادةً ما يكون أداء VLMs أفضل مع الصور عالية الدقة. على سبيل المثال، كما هو موضح أدناه، لم تتمكن FastVLM من تحديد علامة شارع على أنها "ممنوع الدخول" بشكل صحيح إلا عند إعطاء نسخة عالية الدقة من الصورة. ومع ذلك، عادةً ما تؤدي المدخلات عالية الدقة إلى إبطاء النماذج. هذا هو المكان الذي يحدث فيه FastViTHD فرقًا.
يساعد برنامج ترميز الرؤية الجديد من Apple، FastViTHD، FastViTHD، على معالجة الصور عالية الجودة بكفاءة أكبر، باستخدام ذاكرة وطاقة أقل. وعلى وجه التحديد، يتميز FastViTHD بخفة الوزن بما يكفي لتشغيله بسلاسة حتى على الأجهزة الأصغر حجماً.
كما أن FastVLM متاح للجمهور على مستودع GitHub الخاص ب FastVLM، حيث يمكن للمطورين الوصول إلى التعليمات البرمجية المصدرية وإجراء التغييرات واستخدامها في تطبيقاتهم الخاصة وفقًا لشروط ترخيص Apple.
بالمقارنة مع نماذج لغات الرؤية الأخرى، تم تحسين FastVLM ليعمل على الأجهزة اليومية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة. في اختبارات الأداء، أنتج FastVLM أول كلمة أو مخرجات أسرع بما يصل إلى 85 مرة من نماذج مثل LLaVA-OneVision-0.5B.
إليك لمحة عن بعض المعايير القياسية التي تم تقييم FastVLM عليها:
عبر هذه المعايير، حقق FastVLM نتائج تنافسية مع استخدام موارد أقل. فهو يجلب الذكاء الاصطناعي المرئي العملي إلى الأجهزة اليومية مثل الهواتف والأجهزة اللوحية وأجهزة الكمبيوتر المحمولة.
بعد ذلك، دعنا نلقي نظرة فاحصة على FastViTHD، وهو مشفر الرؤية الذي يلعب دورًا حاسمًا في أداء معالجة الصور في FastVLM.
تقوم معظم نماذج لغة الرؤية بتقسيم الصورة إلى آلاف الرقع الصغيرة التي تُسمى الرموز. كلما زاد عدد الرموز، زاد الوقت والطاقة التي يحتاجها النموذج لفهم الصورة. هذا يمكن أن يجعل الأمور بطيئة، خاصةً على الهواتف أو أجهزة الكمبيوتر المحمولة.
يتفادى FastViTHD التباطؤ الذي يأتي مع معالجة الكثير من الرموز باستخدام عدد أقل منها، مع الاستمرار في فهم الصورة الكاملة. فهو يجمع بين طريقتين: المحولات، وهي جيدة في نمذجة الأنماط والعلاقات، والطبقات التلافيفية، وهي فعالة في معالجة البيانات المرئية. والنتيجة هي نظام يعمل بشكل أسرع ويستخدم ذاكرة أقل.
ووفقًا لشركة Apple، فإن FastViTHD أصغر بما يصل إلى 3.4 مرات من بعض برامج ترميز الرؤية التقليدية، مع الحفاظ على دقة عالية. فبدلاً من الاعتماد على تقنيات تحسين النموذج مثل تشذيب الرموز (إزالة بقع الصور الأقل أهمية لتسريع المعالجة)، فإنه يحقق الكفاءة من خلال بنية أبسط وأكثر انسيابية.
أصدرت Apple FastVLM بثلاثة أحجام مختلفة: 0.5 مليار و1.5 مليار و7 مليار معلمة (حيث يرمز الحرف "B" إلى مليار في إشارة إلى عدد الأوزان القابلة للتدريب في النموذج). تم تصميم كل إصدار ليناسب أنواعًا مختلفة من الأجهزة. يمكن تشغيل النماذج الأصغر حجمًا على الهواتف والأجهزة اللوحية، في حين أن نموذج 7B الأكبر حجمًا هو الأنسب لأجهزة الكمبيوتر المكتبية أو المهام الأكثر تطلبًا.
وهذا يمنح المطورين المرونة في اختيار الأفضل لتطبيقاتهم. يمكنهم بناء شيء سريع وخفيف الوزن للهواتف المحمولة أو شيء أكثر تعقيدًا للأنظمة الأكبر، وكل ذلك باستخدام نفس بنية النموذج الأساسية.
قامت شركة Apple بتدريب متغيرات نموذج FastVLM باستخدام خط أنابيب LLaVA-1.5، وهو إطار عمل لمواءمة نماذج الرؤية واللغة. بالنسبة لمكون اللغة، قاموا بتقييم FastVLM باستخدام نماذج مفتوحة المصدر موجودة مثل Qwen و Vicuna، والمعروفة بتوليد نصوص طبيعية ومتماسكة. يسمح هذا الإعداد لـ FastVLM بمعالجة الصور البسيطة والمعقدة على حد سواء وإنتاج استجابات قابلة للقراءة وذات صلة.
قد تتساءل، ما أهمية معالجة FastVLM الفعالة للصور؟ يعود ذلك إلى مدى سلاسة عمل التطبيقات في الوقت الحقيقي دون الاعتماد على السحابة. يستطيع FastVLM التعامل مع الصور عالية الدقة، حتى 1152 في 1152 بكسل، مع الحفاظ على سرعته وخفة وزنه بما يكفي لتشغيله مباشرةً على جهازك.
هذا يعني أنه يمكن للتطبيقات وصف ما تراه الكاميرا، أو مسح الإيصالات أثناء التقاطها، أو الاستجابة للتغييرات التي تطرأ على الشاشة، كل ذلك مع الحفاظ على كل شيء محلياً. وهو مفيد بشكل خاص في مجالات مثل التعليم وإمكانية الوصول والإنتاجية والتصوير الفوتوغرافي.
نظرًا لأن FastViTHD فعال حتى عندما يتعلق الأمر بالصور الكبيرة، فإنه يساعد في الحفاظ على استجابة الأجهزة وفعاليتها. وهو يعمل مع جميع أحجام الطرازات، بما في ذلك أصغرها، والذي يعمل على أجهزة iPhone للمبتدئين. وهذا يعني أن ميزات الذكاء الاصطناعي نفسها يمكن أن تعمل على الهواتف والأجهزة اللوحية وأجهزة Mac.
يمكن ل FastVLM تشغيل مجموعة واسعة من التطبيقات، وذلك بفضل مزاياه الرئيسية مثل السرعة والكفاءة والخصوصية على الجهاز. إليك بعض الطرق التي يمكن استخدامها بها:
مساعدو الذكاء الاصطناعي على الجهاز: يمكن أن يعمل FastVLM بشكل جيد مع مساعدي الذكاء الاصطناعي الذين يحتاجون إلى فهم ما هو موجود على الشاشة بسرعة. ونظراً لأنه يعمل مباشرةً على الجهاز ويحافظ على خصوصية البيانات، يمكنه المساعدة في مهام مثل قراءة النصوص، وتحديد الأزرار أو الرموز، وتوجيه المستخدمين في الوقت الفعلي دون الحاجة إلى إرسال المعلومات إلى السحابة.
يجلب FastVLM الذكاء الاصطناعي بلغة الرؤية على الجهاز إلى أجهزة Apple، ويجمع بين السرعة والخصوصية والكفاءة. وبفضل تصميمه خفيف الوزن وإصداره مفتوح المصدر، فإنه يتيح فهم الصور في الوقت الفعلي عبر تطبيقات الأجهزة المحمولة وسطح المكتب.
يساعد ذلك على جعل الذكاء الاصطناعي أكثر عملية وسهولة في الاستخدام اليومي، ويمنح المطورين أساسًا متينًا لبناء تطبيقات مفيدة تركز على الخصوصية. بالنظر إلى المستقبل، من المرجح أن تلعب نماذج لغة الرؤية دورًا مهمًا في كيفية تفاعلنا مع التكنولوجيا، مما يجعل الذكاء الاصطناعي أكثر استجابة وإدراكًا للسياق ومفيدًا في المواقف اليومية.
استكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. انضم إلى مجتمعنا النشط واكتشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في صناعة السيارات والذكاء الاصطناعي البصري في التصنيع. لبدء استخدام الرؤية الحاسوبية اليوم، اطلع على خيارات الترخيص لدينا.