فهم نماذج اللغة المرئية وتطبيقاتها
تعرف على نماذج اللغة المرئية، وكيف تعمل، وتطبيقاتها المختلفة في الذكاء الاصطناعي. اكتشف كيف تجمع هذه النماذج بين القدرات البصرية واللغوية.

في مقال سابق، استكشفنا كيف يمكن لـ GPT-4o فهم الصور ووصفها باستخدام الكلمات. نحن نشهد هذه القدرة أيضًا في نماذج جديدة أخرى مثل Google Gemini وClaude 3. اليوم، نتعمق أكثر في هذا المفهوم لنشرح كيفية عمل نماذج الرؤية واللغة (Vision Language Models) وكيفية دمجها للبيانات المرئية والنصية.
يمكن استخدام هذه النماذج لأداء مجموعة من المهام المثيرة للإعجاب، مثل إنشاء تسميات توضيحية مفصلة للصور، والإجابة على الأسئلة المتعلقة بالصور، وحتى إنشاء محتوى مرئي جديد بناءً على الأوصاف النصية. من خلال دمج المعلومات المرئية واللغوية بسلاسة، تُغير نماذج الرؤية واللغة الطريقة التي نتفاعل بها مع التكنولوجيا ونفهم العالم من حولنا.
Link to this sectionكيفية عمل نماذج الرؤية واللغة#
قبل أن ننظر إلى المجالات التي يمكن فيها استخدام نماذج الرؤية واللغة (VLMs)، دعونا نفهم ماهيتها وكيف تعمل. VLMs هي نماذج ذكاء اصطناعي متقدمة تجمع بين قدرات نماذج الرؤية ونماذج اللغة للتعامل مع الصور والنصوص على حد سواء. تأخذ هذه النماذج الصور بالإضافة إلى أوصافها النصية وتتعلم الربط بينهما. يلتقط الجزء المرئي من النموذج التفاصيل من الصور، بينما يفهم الجزء اللغوي النص. يسمح هذا التعاون لـ VLMs بفهم وتحليل كل من الصور والنصوص.
إليك القدرات الرئيسية لنماذج الرؤية واللغة:
- شرح الصور (Image Captioning): إنشاء نص وصفي بناءً على محتوى الصور.
- الإجابة على الأسئلة المرئية (VQA): الإجابة على الأسئلة المتعلقة بمحتوى الصورة.
- تحويل النص إلى صورة: إنشاء صور بناءً على الأوصاف النصية.
- استرجاع الصورة والنص: العثور على صور ذات صلة لاستعلام نصي معين والعكس صحيح.
- إنشاء محتوى متعدد الوسائط: دمج الصور والنصوص لإنشاء محتوى جديد.
- فهم المشهد واكتشاف الكائنات: تحديد وتصنيف الكائنات والتفاصيل داخل الصورة.

الشكل 1. مثال على قدرات نموذج الرؤية واللغة.
بعد ذلك، دعونا نستكشف بنيات VLM الشائعة وتقنيات التعلم المستخدمة من قبل نماذج معروفة مثل CLIP وSimVLM وVisualGPT.
Link to this sectionالتعلم التبايني (Contrastive learning)#
التعلم التبايني هو أسلوب يساعد النماذج على التعلم من خلال مقارنة الاختلافات بين نقاط البيانات. فهو يحسب مدى تشابه أو اختلاف الحالات ويهدف إلى تقليل الخسارة التباينية، التي تقيس هذه الاختلافات. إنه مفيد بشكل خاص في التعلم شبه الخاضع للإشراف، حيث توجه مجموعة صغيرة من الأمثلة المصنفة النموذج لتصنيف بيانات جديدة غير مرئية. على سبيل المثال، لفهم شكل القطة، يقارن النموذج بينها وبين صور قطط مشابهة وصور كلاب. من خلال تحديد ميزات مثل بنية الوجه وحجم الجسم والفراء، يمكن لتقنيات التعلم التبايني التمييز بين القطة والكلب.

الشكل 2. كيفية عمل التعلم التبايني.
CLIP هو نموذج رؤية ولغة يستخدم التعلم التبايني لمطابقة الأوصاف النصية مع الصور. يعمل في ثلاث خطوات بسيطة. أولاً، يقوم بتدريب أجزاء النموذج التي تفهم كلاً من النص والصور. ثانيًا، يقوم بتحويل الفئات في مجموعة بيانات إلى أوصاف نصية. ثالثًا، يحدد أفضل وصف مطابق لصورة معينة. بفضل هذه الطريقة، يمكن لنموذج CLIP تقديم تنبؤات دقيقة حتى للمهام التي لم يتم تدريبه عليها بشكل خاص.
Link to this sectionPrefixLM#
PrefixLM هي تقنية لمعالجة اللغات الطبيعية (NLP) تُستخدم لتدريب النماذج. تبدأ بجزء من جملة (بادئة) وتتعلم التنبؤ بالكلمة التالية. في نماذج الرؤية واللغة، تساعد PrefixLM النموذج على التنبؤ بالكلمات التالية بناءً على صورة وقطعة نصية معينة. يستخدم النموذج Vision Transformer (ViT)، الذي يقسم الصورة إلى رقع صغيرة، تمثل كل منها جزءًا من الصورة، ويعالجها بالتسلسل.

الشكل 3. مثال على تدريب VLM يستخدم تقنية PrefixLM.
SimVLM هو VLM يستخدم تقنية التعلم PrefixLM. يستخدم بنية Transformer أبسط مقارنة بالنماذج السابقة ولكنه يحقق نتائج أفضل في اختبارات مختلفة. تتضمن بنية النموذج الخاصة به تعلم ربط الصور ببادئات نصية باستخدام مشفر transformer ثم إنشاء نص باستخدام مفكك ترميز transformer.
Link to this sectionدمج الوسائط المتعددة مع الاهتمام المتبادل (Cross-Attention)#
دمج الوسائط المتعددة مع الاهتمام المتبادل هو تقنية تعمل على تحسين قدرة نموذج الرؤية واللغة المدرب مسبقًا على فهم ومعالجة البيانات المرئية. يعمل ذلك عن طريق إضافة طبقات الاهتمام المتبادل إلى النموذج، مما يسمح له بالتركيز على كل من المعلومات المرئية والنصية في نفس الوقت.
إليك كيف يعمل ذلك:
- يتم تحديد الكائنات الرئيسية في الصورة وتمييزها.
- تتم معالجة الكائنات المحددة بواسطة مشفر مرئي، مما يترجم المعلومات المرئية إلى تنسيق يمكن للنموذج فهمه.
- يتم تمرير المعلومات المرئية إلى مفكك ترميز، الذي يفسر الصورة باستخدام معرفة نموذج اللغة المدرب مسبقًا.
VisualGPT هو مثال جيد على نموذج يستخدم هذه التقنية. يتضمن ميزة خاصة تسمى وحدة التنشيط ذاتية الإحياء (SRAU)، والتي تساعد النموذج على تجنب مشكلة شائعة تسمى تلاشي التدرجات (vanishing gradients). يمكن أن تتسبب التدرجات المتلاشية في فقدان النماذج لمعلومات مهمة أثناء التدريب، ولكن SRAU تحافظ على أداء النموذج قويًا.

الشكل 4. بنية نموذج VisualGPT.
Link to this sectionتطبيقات نماذج الرؤية واللغة#
تُحدث نماذج الرؤية واللغة تأثيرًا في مجموعة متنوعة من الصناعات. من تعزيز منصات التجارة الإلكترونية إلى جعل الإنترنت أكثر سهولة في الوصول، فإن الاستخدامات المحتملة لـ VLMs مثيرة. دعونا نستكشف بعض هذه التطبيقات.
Link to this sectionإنشاء أوصاف المنتج#
عند التسوق عبر الإنترنت، ترى أوصافًا مفصلة لكل منتج، ولكن إنشاء هذه الأوصاف قد يستغرق وقتًا طويلاً. تعمل VLMs على تبسيط هذه العملية من خلال أتمتة إنشاء هذه الأوصاف. يمكن لتجار التجزئة عبر الإنترنت إنشاء أوصاف مفصلة ودقيقة مباشرة من صور المنتجات باستخدام نماذج الرؤية واللغة.
تساعد أوصاف المنتج عالية الجودة محركات البحث في تحديد المنتجات بناءً على سمات محددة مذكورة في الوصف. على سبيل المثال، الوصف الذي يحتوي على "أكمام طويلة" و"ياقة قطنية" يساعد العملاء في العثور على "قميص قطني بأكمام طويلة" بسهولة أكبر. كما أنه يساعد العملاء في العثور على ما يريدونه بسرعة، مما يؤدي بدوره إلى زيادة المبيعات ورضا العملاء.

الشكل 5. مثال على وصف منتج تم إنشاؤه بواسطة الذكاء الاصطناعي.
تُعد نماذج الذكاء الاصطناعي التوليدي، مثل BLIP-2، أمثلة على VLMs متطورة يمكنها التنبؤ بسمات المنتج مباشرة من الصور. يستخدم BLIP-2 العديد من المكونات لفهم ووصف منتجات التجارة الإلكترونية بدقة. يبدأ بمعالجة وفهم الجوانب المرئية للمنتج باستخدام مشفر صور. ثم، يقوم محول استعلام بتفسير هذه المعلومات المرئية في سياق أسئلة أو مهام محددة. أخيرًا، يقوم نموذج لغوي كبير بإنشاء أوصاف دقيقة ومفصلة للمنتج.
Link to this sectionجعل الإنترنت أكثر سهولة في الوصول#
يمكن لنماذج الرؤية واللغة جعل الإنترنت أكثر سهولة في الوصول من خلال شرح الصور، خاصة للأفراد ضعاف البصر. تقليديًا، يحتاج المستخدمون إلى إدخال أوصاف للمحتوى المرئي على مواقع الويب ووسائل التواصل الاجتماعي. على سبيل المثال، عند النشر على Instagram، يمكنك إضافة نص بديل لقارئات الشاشة. ومع ذلك، يمكن لـ VLMs أتمتة هذه العملية.
عندما يرى نموذج VLM صورة لقطة تجلس على أريكة، يمكنه إنشاء التسمية "قطة تجلس على أريكة"، مما يجعل المشهد واضحًا للمستخدمين ضعاف البصر. تستخدم VLMs تقنيات مثل التلقين ببضع لقطات (few-shot prompting)، حيث تتعلم من أمثلة قليلة لأزواج صور وتعليقات، والتلقين بسلسلة الأفكار (chain-of-thought prompting)، مما يساعدها على تقسيم المشاهد المعقدة منطقيًا. تجعل هذه التقنيات التسميات التي تم إنشاؤها أكثر تماسكًا وتفصيلاً.

الشكل 6. استخدام الذكاء الاصطناعي لإنشاء تسميات توضيحية للصور.
ولهذا الغرض، تقوم ميزة "Get Image Descriptions from Google" من Google في متصفح Chrome بإنشاء أوصاف تلقائية للصور التي لا تحتوي على نص بديل. ورغم أن هذه الأوصاف التي تم إنشاؤها بواسطة الذكاء الاصطناعي قد لا تكون مفصلة مثل تلك التي يكتبها البشر، إلا أنها لا تزال توفر معلومات قيمة.
Link to this sectionفوائد وقيود نماذج الرؤية واللغة#
توفر نماذج الرؤية واللغة (VLMs) العديد من المزايا من خلال الجمع بين البيانات المرئية والنصية. تتضمن بعض الفوائد الرئيسية ما يلي:
- تحسين التفاعل بين الإنسان والآلة: تمكين الأنظمة من فهم الرد على المدخلات المرئية والنصية، مما يحسن المساعدين الافتراضيين وروبوتات الدردشة والروبوتات.
- التشخيص والتحليل المتقدم: المساعدة في المجال الطبي من خلال تحليل الصور وإنشاء أوصاف، ودعم المتخصصين الصحيين بآراء ثانية، واكتشاف الشذوذ.
- سرد القصص التفاعلي والترفيه: إنشاء روايات جذابة من خلال الجمع بين المدخلات المرئية والنصية لتحسين تجارب المستخدم في الألعاب والواقع الافتراضي.
على الرغم من قدراتها المثيرة للإعجاب، تأتي نماذج الرؤية واللغة أيضًا ببعض القيود. إليك بعض الأشياء التي يجب وضعها في الاعتبار عندما يتعلق الأمر بـ VLMs:
- متطلبات حسابية عالية: يتطلب تدريب ونشر VLMs موارد حسابية كبيرة، مما يجعلها مكلفة وأقل سهولة في الوصول.
- الاعتماد على البيانات والتحيز: يمكن أن تنتج VLMs نتائج متحيزة إذا تم تدريبها على مجموعات بيانات غير متنوعة أو متحيزة، مما قد يؤدي إلى إدامة الصور النمطية والمعلومات المضللة.
- محدودية فهم السياق: قد تواجه VLMs صعوبة في فهم الصورة الأكبر أو السياق وإنشاء مخرجات مبسطة للغاية أو غير صحيحة.
Link to this sectionأبرز النقاط#
تمتلك نماذج الرؤية واللغة إمكانات هائلة عبر العديد من المجالات، مثل التجارة الإلكترونية والرعاية الصحية. من خلال دمج البيانات المرئية والنصية، يمكنها دفع الابتكار وتحويل الصناعات. ومع ذلك، فإن تطوير هذه التقنيات بمسؤولية وأخلاقية أمر ضروري لضمان استخدامها بإنصاف. مع استمرار تطور VLMs، ستعمل على تحسين مهام مثل البحث القائم على الصور والتقنيات المساعدة.
لمواصلة التعلم عن الذكاء الاصطناعي، تواصل مع مجتمعنا! استكشف مستودع GitHub الخاص بنا لرؤية كيف نستخدم الذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع والرعاية الصحية. 🚀






