استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

فهم نماذج لغة الرؤية وتطبيقاتها

أبيرامي فينا

6 دقائق قراءة

5 يوليو، 2024

تعرف على نماذج لغة الرؤية، وكيفية عملها، وتطبيقاتها المختلفة في الذكاء الاصطناعي. اكتشف كيف تجمع هذه النماذج بين القدرات المرئية واللغوية.

في مقال سابق، استكشفنا كيف يمكن لـ GPT-4o فهم الصور ووصفها باستخدام الكلمات. ونحن نشهد هذه القدرة أيضًا في نماذج جديدة أخرى مثل Google Gemini و Claude 3. اليوم، نتعمق أكثر في هذا المفهوم لشرح كيفية عمل نماذج لغة الرؤية وكيف تجمع بين البيانات المرئية والنصية. 

يمكن استخدام هذه النماذج لتنفيذ مجموعة من المهام الرائعة، مثل إنشاء تسميات توضيحية مفصلة للصور، والإجابة على الأسئلة المتعلقة بالصور، وحتى إنشاء محتوى مرئي جديد بناءً على الأوصاف النصية. من خلال الدمج السلس للمعلومات المرئية واللغوية، تعمل نماذج لغة الرؤية على تغيير طريقة تفاعلنا مع التكنولوجيا وفهمنا للعالم من حولنا.

كيف تعمل نماذج لغة الرؤية

قبل أن ننظر إلى أين يمكن استخدام نماذج الرؤية اللغوية (VLMs)، دعونا نفهم ماهيتها وكيف تعمل. نماذج الرؤية اللغوية هي نماذج ذكاء اصطناعي متقدمة تجمع بين قدرات الرؤية والنماذج اللغوية للتعامل مع كل من الصور والنصوص. تستقبل هذه النماذج الصور جنبًا إلى جنب مع الأوصاف النصية الخاصة بها وتتعلم ربط الاثنين. يلتقط جزء الرؤية في النموذج تفاصيل من الصور، بينما يفهم الجزء اللغوي النص. يسمح هذا العمل الجماعي لنماذج الرؤية اللغوية بفهم وتحليل كل من الصور والنصوص.

إليك القدرات الرئيسية لنماذج لغة الرؤية:

  • تسمية الصور: إنشاء نص وصفي بناءً على محتوى الصور.
  • الإجابة المرئية على الأسئلة (VQA): الإجابة على الأسئلة المتعلقة بمحتوى الصورة.
  • إنشاء صورة مننص: إنشاء صور بناءً على أوصاف نصية.
  • استرجاع الصور والنصوص: العثور على الصور ذات الصلة لاستعلام نصي معين والعكس صحيح.
  • إنشاء محتوى متعدد الوسائط: الجمع بين الصور والنصوص لإنشاء محتوى جديد.
  • فهم المشهد واكتشاف الكائنات: تحديد وتصنيف الكائنات والتفاصيل داخل الصورة.
__wf_reserved_inherit
الشكل 1. مثال على قدرات نموذج لغة الرؤية.

بعد ذلك، دعنا نستكشف بنيات VLM الشائعة وتقنيات التعلم المستخدمة من قبل النماذج المعروفة مثل CLIP و SimVLM و VisualGPT.

التعلم التبايني

التعلم التبايني هو أسلوب يساعد النماذج على التعلم من خلال مقارنة الاختلافات بين نقاط البيانات. فهو يحسب مدى تشابه أو اختلاف الحالات ويهدف إلى تقليل الفقد التبايني، الذي يقيس هذه الاختلافات. وهو مفيد بشكل خاص في التعلم شبه الخاضع للإشراف، حيث توجه مجموعة صغيرة من الأمثلة المصنفة النموذج لتصنيف بيانات جديدة غير مرئية. على سبيل المثال، لفهم كيف تبدو القطة، يقارن النموذج صورها بصور قطط مماثلة وصور كلاب. من خلال تحديد ميزات مثل بنية الوجه وحجم الجسم والفراء، يمكن لتقنيات التعلم التبايني التمييز بين القطة والكلب.

__wf_reserved_inherit
الشكل 2. كيف يعمل التعلم التبايني.

CLIP هو نموذج رؤية ولغة يستخدم التعلم التبايني لمطابقة الأوصاف النصية مع الصور. وهو يعمل في ثلاث خطوات بسيطة. أولاً، يقوم بتدريب أجزاء النموذج التي تفهم كلاً من النص والصور. ثانيًا، يقوم بتحويل الفئات الموجودة في مجموعة البيانات إلى أوصاف نصية. ثالثًا، يحدد أفضل وصف مطابق لصورة معينة. بفضل هذه الطريقة، يمكن لنموذج CLIP تقديم تنبؤات دقيقة حتى بالنسبة للمهام التي لم يتم تدريبه عليها تحديدًا.

PrefixLM

PrefixLM هي تقنية معالجة اللغة الطبيعية (NLP) تستخدم لتدريب النماذج. تبدأ بجزء من الجملة (بادئة) وتتعلم التنبؤ بالكلمة التالية. في نماذج الرؤية واللغة، تساعد PrefixLM النموذج على التنبؤ بالكلمات التالية بناءً على صورة وجزء معين من النص. تستخدم Vision Transformer (ViT)، التي تقسم الصورة إلى رقع صغيرة، تمثل كل منها جزءًا من الصورة، وتعالجها بالتسلسل. 

__wf_reserved_inherit
الشكل 3. مثال على تدريب نموذج لغوي بصري كبير (VLM) يستخدم تقنية PrefixLM.

SimVLM هو نموذج VLM يستخدم تقنية تعلم PrefixLM. يستخدم بنية Transformer أبسط مقارنة بالنماذج السابقة ولكنه يحقق نتائج أفضل في اختبارات مختلفة. تتضمن بنية نموذجه تعلم ربط الصور ببادئات نصية باستخدام ترميز المحولات ثم إنشاء نص باستخدام وحدة فك ترميز المحولات. 

دمج متعدد الوسائط مع الانتباه المتقاطع

إن الدمج متعدد الوسائط مع الانتباه المتقاطع هو تقنية تعمل على تحسين قدرة نموذج اللغة المرئية المدرب مسبقًا على فهم ومعالجة البيانات المرئية. وهو يعمل عن طريق إضافة طبقات انتباه متقاطع إلى النموذج، مما يسمح له بالاهتمام بالمعلومات المرئية والنصية في نفس الوقت. 

إليك كيفية عملها: 

  • يتم تحديد الكائنات الرئيسية في الصورة وتمييزها.
  • تتم معالجة الكائنات المميزة بواسطة مشفر مرئي، يقوم بترجمة المعلومات المرئية إلى تنسيق يمكن للنموذج فهمه.
  • يتم تمرير المعلومات المرئية إلى وحدة فك ترميز، والتي تفسر الصورة باستخدام معرفة نموذج اللغة المدرب مسبقًا.

VisualGPT هو مثال جيد لنموذج يستخدم هذه التقنية. يتضمن ميزة خاصة تسمى وحدة التنشيط ذاتية الإحياء (SRAU)، والتي تساعد النموذج على تجنب مشكلة شائعة تسمى التدرجات المتلاشية. يمكن أن تتسبب التدرجات المتلاشية في فقد النماذج معلومات مهمة أثناء التدريب، لكن SRAU تحافظ على قوة أداء النموذج. 

__wf_reserved_inherit
الشكل 4. بنية نموذج VisualGPT.

تطبيقات نماذج لغة الرؤية

تُحدث نماذج لغة الرؤية تأثيرًا في مجموعة متنوعة من الصناعات. من تعزيز منصات التجارة الإلكترونية إلى جعل الإنترنت أكثر سهولة، فإن الاستخدامات المحتملة لـ VLMs مثيرة. دعنا نستكشف بعض هذه التطبيقات.

إنشاء أوصاف للمنتجات

عندما تتسوق عبر الإنترنت، ترى أوصافًا تفصيلية لكل منتج، ولكن إنشاء هذه الأوصاف قد يستغرق وقتًا طويلاً. تعمل نماذج اللغة المرئية (VLMs) على تبسيط هذه العملية عن طريق أتمتة إنشاء هذه الأوصاف. يمكن لتجار التجزئة عبر الإنترنت إنشاء أوصاف تفصيلية ودقيقة مباشرة من صور المنتج باستخدام نماذج اللغة المرئية. 

تساعد أوصاف المنتجات عالية الجودة محركات البحث في تحديد المنتجات بناءً على سمات معينة مذكورة في الوصف. على سبيل المثال، يساعد الوصف الذي يحتوي على "كم طويل" و "رقبة قطنية" العملاء في العثور على "قميص قطني بأكمام طويلة" بسهولة أكبر. كما أنه يساعد العملاء في العثور على ما يريدون بسرعة، وبالتالي يزيد المبيعات ورضا العملاء.

__wf_reserved_inherit
الشكل 5. مثال على وصف منتج تم إنشاؤه بواسطة الذكاء الاصطناعي. 

تُعد نماذج الذكاء الاصطناعي التوليدية، مثل BLIP-2، أمثلة على نماذج لغوية بصرية (VLMs) متطورة يمكنها التنبؤ بسمات المنتج مباشرةً من الصور. يستخدم BLIP-2 عدة مكونات لفهم ووصف منتجات التجارة الإلكترونية بدقة. يبدأ بمعالجة وفهم الجوانب المرئية للمنتج باستخدام أداة ترميز الصور. بعد ذلك، يقوم محول الاستعلام بتفسير هذه المعلومات المرئية في سياق أسئلة أو مهام محددة. وأخيرًا، يقوم نموذج لغوي كبير بإنشاء أوصاف تفصيلية ودقيقة للمنتج.

جعل الإنترنت أكثر سهولة

يمكن لنماذج لغة الرؤية أن تجعل الإنترنت أكثر إمكانية الوصول من خلال التعليق على الصور، خاصةً للأفراد ضعاف البصر. تقليديًا، يحتاج المستخدمون إلى إدخال أوصاف للمحتوى المرئي على مواقع الويب ووسائل التواصل الاجتماعي. على سبيل المثال، عند النشر على Instagram، يمكنك إضافة نص بديل لقارئات الشاشة. ومع ذلك، يمكن لـ VLMs أتمتة هذه العملية. 

عندما يرى نموذج VLM صورة لقطة جالسة على أريكة، يمكنه إنشاء تعليق توضيحي "قطة جالسة على أريكة"، مما يجعل المشهد واضحًا للمستخدمين ضعاف البصر. تستخدم نماذج VLMs تقنيات مثل التلقين بعدد قليل من اللقطات (few-shot prompting)، حيث يتعلمون من أمثلة قليلة من أزواج الصور والتعليقات، والتلقين بسلسلة الأفكار (chain-of-thought prompting)، مما يساعدهم على تقسيم المشاهد المعقدة منطقيًا. هذه التقنيات تجعل التعليقات التوضيحية التي تم إنشاؤها أكثر تماسكًا وتفصيلاً.

__wf_reserved_inherit
الشكل 6. استخدام الذكاء الاصطناعي لإنشاء تسميات توضيحية للصور.

تحقيقًا لهذه الغاية، تقوم ميزة "الحصول على أوصاف الصور من Google" من Google في Chrome بإنشاء أوصاف تلقائيًا للصور بدون نص بديل. في حين أن هذه الأوصاف التي تم إنشاؤها بواسطة الذكاء الاصطناعي قد لا تكون مفصلة مثل تلك التي كتبها البشر، إلا أنها لا تزال توفر معلومات قيمة.

مزايا وقيود نماذج الرؤية اللغوية

توفر نماذج لغة الرؤية (VLMs) العديد من المزايا من خلال الجمع بين البيانات المرئية والنصية. تتضمن بعض الفوائد الرئيسية ما يلي:

  • تفاعل أفضل بين الإنسان والآلة: تمكين الأنظمة من فهم المدخلات المرئية والنصية والاستجابة لها، وتحسين المساعدين الافتراضيين، وروبوتات الدردشة، والروبوتات.
  • التشخيصات والتحليلات المتقدمة: المساعدة في المجال الطبي من خلال تحليل الصور وإنشاء أوصاف، ودعم المتخصصين في الصحة بآراء ثانية، واكتشاف الحالات الشاذة.
  • سرد القصص التفاعلي والترفيه: قم بإنشاء روايات جذابة من خلال الجمع بين المدخلات المرئية والنصية لتحسين تجارب المستخدم في الألعاب والواقع الافتراضي.

على الرغم من قدراتها الرائعة، تأتي نماذج اللغة المرئية أيضًا مع بعض القيود. فيما يلي بعض الأشياء التي يجب وضعها في الاعتبار عندما يتعلق الأمر بنماذج اللغة المرئية:

  • متطلبات حسابية عالية: يتطلب تدريب ونشر نماذج اللغة المرئية الكبيرة (VLMs) موارد حسابية كبيرة، مما يجعلها مكلفة وأقل سهولة في الوصول إليها.
  • الاعتماد على البيانات والتحيز: يمكن أن تنتج نماذج اللغة المرئية نتائج متحيزة إذا تم تدريبها على مجموعات بيانات غير متنوعة أو متحيزة، مما قد يؤدي إلى إدامة الصور النمطية والمعلومات الخاطئة.
  • فهم محدود للسياق: قد تواجه نماذج اللغة المرئية صعوبة في فهم الصورة الأكبر أو السياق وإنشاء مخرجات مبسطة أو غير صحيحة.

النقاط الرئيسية

تتمتع نماذج لغة الرؤية بإمكانات هائلة في العديد من المجالات، مثل التجارة الإلكترونية و الرعاية الصحية. من خلال الجمع بين البيانات المرئية والنصية، يمكنهم دفع الابتكار وتحويل الصناعات. ومع ذلك، فإن تطوير هذه التقنيات بمسؤولية وأخلاق أمر ضروري لضمان استخدامها بشكل عادل. مع استمرار تطور VLMs، فإنها ستحسن مهام مثل البحث المستند إلى الصور والتقنيات المساعدة. 

للاستمرار في التعلم عن الذكاء الاصطناعي، تواصل مع مجتمعنا! استكشف مستودع GitHub الخاص بنا لترى كيف نستخدم الذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع و الرعاية الصحية. 🚀

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة