مسرد المصطلحات

CLIP (التدريب المسبق على اللغة والصورة المتباينة)

اكتشف كيف يُحدث برنامج CLIP من OpenAI ثورة في الذكاء الاصطناعي من خلال التعلم بدون لقطات، ومواءمة الصور والنصوص، والتطبيقات الواقعية في مجال الرؤية الحاسوبية.

CLIP (التدريب المسبق للغة والصورة المتباينة) هو نموذج رائد متعدد الوسائط تم تطويره بواسطة OpenAI يربط بين النصوص والصور ضمن مساحة مشتركة للفهم. على عكس النماذج التقليدية التي تم تدريبها على مهمة واحدة مثل تصنيف الصور، يتعلم CLIP المفاهيم البصرية مباشرةً من أوصاف اللغة الطبيعية. يتم تدريبه على مجموعة بيانات ضخمة من أزواج الصور والنصوص من الإنترنت، مما يمكّنه من أداء مجموعة واسعة من المهام دون الحاجة إلى تدريب محدد لكل مهمة - وهي قدرة تُعرف باسم التعلم بدون لقطة. هذا النهج يجعل منه نموذجًا أساسيًا قويًا لجيل جديد من تطبيقات الذكاء الاصطناعي.

كيف تعمل

تتمثل الفكرة الأساسية وراء CLIP في تعلم مساحة تضمين مشتركة حيث يمكن تمثيل كل من الصور والنصوص على شكل متجهات. ويستخدم نموذج CLIP نموذجين منفصلين للتشفير: محول رؤية (ViT) أو بنية مشابهة للصور ومحول نص للنص. أثناء التدريب، يتم إعطاء النموذج مجموعة من أزواج الصور والنصوص ويتعلم التنبؤ بالتعليق النصي الذي يتوافق مع الصورة. يتم تحقيق ذلك من خلال التعلّم التبايني، حيث يكون هدف النموذج هو تعظيم تشابه التضمينات للأزواج الصحيحة مع تقليلها للأزواج غير الصحيحة. والنتيجة، المفصلة في الورقة البحثية الأصلية، هي فهم قوي للمفاهيم التي تربط البيانات المرئية بالسياق اللغوي. وقد أتاح تطبيق مفتوح المصدر، OpenCLIP، تم تدريبه على مجموعات بيانات مثل LAION-5B، إمكانية الوصول إلى هذه التقنية على نطاق واسع.

التطبيقات الواقعية

تصلح قدرات CLIP الفريدة للعديد من الاستخدامات العملية:

  • البحث الدلالي عن الصور: يعمل CLIP على تشغيل أنظمة بحث متقدمة حيث يمكن للمستخدمين العثور على الصور باستخدام استعلامات اللغة الطبيعية بدلاً من علامات الكلمات الرئيسية. على سبيل المثال، يمكن للمستخدم البحث في كتالوج التجارة الإلكترونية عن "قميص أزرق مخطط للرجال" والحصول على نتائج ذات صلة حتى لو لم يتم وسم المنتجات بهذه الكلمات تحديدًا. تقدم شركة Ultralytics حلاً للبحث الدلالي عن الصور يستخدم CLIP و FAISS (البحث عن التشابه بالذكاء الاصطناعي على فيسبوك) لاسترجاع سريع ودقيق في مكتبات الصور الكبيرة.
  • الإشراف على المحتوى: يمكن لمنصات وسائل التواصل الاجتماعي استخدام CLIP للإبلاغ تلقائيًا عن الصور التي تصور محتوى موصوف في سياساتها، مثل رموز الكراهية أو العنف المصور. هذه الطريقة أكثر مرونة من الطرق التقليدية لأنها يمكن أن تحدد الانتهاكات بناءً على وصف نصي، دون الحاجة إلى مجموعة بيانات مصنفة مسبقًا لكل نوع محتمل من المحتوى المحظور.
  • إرشاد الذكاء الاصطناعي التوليدي: تُعد أدوات التشفير في CLIP ضرورية لتوجيه نماذج الذكاء الاصطناعي التوليدي مثل DALL-E أو Diffusion المستقر. عندما يقدم المستخدم مطالبة نصية، تقوم CLIP بتقييم الصورة التي تم إنشاؤها لمعرفة مدى تطابقها مع معنى المطالبة، وتوجيه النموذج لإنتاج صور أكثر دقة وملاءمة.
  • تحسين إمكانية الوصول: يمكن للنموذج إنشاء تسميات توضيحية وصفية غنية للصور تلقائيًا، والتي يمكن استخدامها بواسطة قارئات الشاشة لوصف المحتوى المرئي للمستخدمين ضعاف البصر، مما يحسن بشكل كبير من إمكانية الوصول إلى الويب.

CLIP مقابل YOLO

من المهم التمييز بين CLIP ونماذج الرؤية الحاسوبية المتخصصة مثل Ultralytics YOLO.

  • يتفوق برنامج CLIP في الفهم الدلالي. فهو يعرف ما تحتويه الصورة بالمعنى المفاهيمي الواسع (على سبيل المثال، يفهم مفهوم "حفلة عيد ميلاد"). وتكمن قوته في ربط اللغة بالمرئيات لمهام مثل التصنيف والبحث، مما يجعله نموذجًا قويًا للغة الرؤية.
  • تتفوق نماذج YOLO في تحديد المواقع. فهي مصممة للكشف عن الأجسام وتجزئتها، وتحديد الموقع والحدود الدقيقة للأجسام داخل الصورة (على سبيل المثال، تحديد موقع كل شخص والكعكة والبالونات في حفلة عيد ميلاد).

وعلى الرغم من أن هذه النماذج متميزة، إلا أنها مكملة لبعضها البعض. قد ينطوي مستقبل السيرة الذاتية على الجمع بين السياق الدلالي لنماذج مثل CLIP ودقة تحديد المواقع التي توفرها أجهزة الكشف مثل YOLO11 لبناء أنظمة ذكاء اصطناعي أكثر تطوراً.

القيود والتوجهات المستقبلية

على الرغم من قوته، إلا أن برنامج CLIP له حدود. نظرًا لأنه تم تدريبه على بيانات هائلة غير منسقة من الإنترنت، يمكنه استيعاب وتكرار التحيزات المجتمعية الموجودة في تلك البيانات، مما يؤدي إلى مخاوف بشأن العدالة في الذكاء الاصطناعي والتحيز الخوارزمي المحتمل. كما أنه يكافح أيضاً في بعض المهام التي تتطلب تفاصيل دقيقة أو التفكير المكاني، مثل عدّ الأشياء بدقة. وتركز الأبحاث الجارية، بما في ذلك العمل في مؤسسات مثل مركز ستانفورد لأبحاث النماذج التأسيسية (CRFM)، على التخفيف من هذه التحيزات وتحسين قدراتها. يمكن إدارة دمج معارف CLIP في عمليات سير العمل المختلفة باستخدام منصات مثل Ultralytics HUB، التي تبسّط إدارة النماذج ومجموعات البيانات.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة