CLIP (Contrastive Language-Image Pre-training)
استكشف CLIP (التدريب المسبق التبايني للغة والصورة) للربط بين الرؤية واللغة. تعلم كيف يتيح التعلم بدون أمثلة (zero-shot) ويدعم Ultralytics YOLO26.
يُعد CLIP (التدريب المسبق التبايني للغة والصورة) بنية شبكة عصبية ثورية طورتها OpenAI لسد الفجوة بين البيانات المرئية واللغة الطبيعية. وعلى عكس أنظمة رؤية الحاسوب (CV) التقليدية التي تتطلب تصنيف بيانات كثيف العمالة لمجموعة ثابتة من الفئات، يتعلم CLIP فهم الصور من خلال التدريب على ملايين أزواج الصور والنصوص المجمعة من الإنترنت. يسمح هذا النهج للنموذج بأداء تعلم بدون أمثلة (zero-shot learning)، مما يعني أنه يمكنه تحديد كائنات أو مفاهيم أو أنماط لم يسبق له رؤيتها صراحة أثناء التدريب، ببساطة عن طريق قراءة وصف نصي. من خلال تعيين المعلومات المرئية واللغوية في مساحة ميزات مشتركة، يعمل CLIP كـ نموذج أساسي قوي لمجموعة واسعة من المهام اللاحقة دون الحاجة إلى ضبط دقيق مكثف خاص بالمهمة.
Link to this sectionكيفية عمل البنية#
تتضمن الآلية الأساسية لـ CLIP جهازي تشفير متوازيين: مشفر صور، يعتمد عادةً على Vision Transformer (ViT) أو ResNet، ومشفر نصي يعتمد على Transformer مشابه لتلك المستخدمة في نماذج اللغات الكبيرة (LLMs) الحديثة. ومن خلال عملية تُعرف باسم التعلم التبايني، يتم تدريب النظام للتنبؤ بقطعة النص التي تطابق أي صورة داخل دفعة واحدة.
أثناء التدريب، يقوم النموذج بتحسين معاملاته لجذب التضمينات المتجهة لأزواج الصور والنصوص المتطابقة معاً بينما يدفع الأزواج غير المتطابقة بعيداً. يخلق هذا مساحة كامنة متعددة الوسائط حيث يقع التمثيل الرياضي لصورة "كلب من نوع جولدن ريتريفر" مكانياً بالقرب من تضمين النص الخاص بـ "صورة لكلب". عن طريق حساب تشابه جيب التمام بين هذه المتجهات، يمكن للنموذج قياس مدى توافق الصورة مع مطالبة اللغة الطبيعية، مما يتيح مرونة في تصنيف الصور والاسترجاع.
Link to this sectionتطبيقات العالم الحقيقي#
إن القدرة على ربط الرؤية واللغة جعلت CLIP تقنية حجر الزاوية في تطبيقات الذكاء الاصطناعي الحديثة:
- بحث دلالي ذكي: يسمح CLIP للمستخدمين بالبحث في قواعد بيانات الصور الكبيرة باستخدام استعلامات معقدة بـ معالجة اللغات الطبيعية (NLP). على سبيل المثال، في الذكاء الاصطناعي في التجزئة، يمكن للمتسوق البحث عن "فستان صيفي مزين بالزهور بأسلوب عتيق" واسترداد نتائج دقيقة بصرياً دون أن تحتوي الصور على علامات وصفية محددة. غالباً ما يتم تشغيل هذا بواسطة قواعد بيانات متجهة عالية الأداء.
- التحكم في الذكاء الاصطناعي التوليدي: تعتمد نماذج مثل Stable Diffusion على CLIP لتفسير مطالبات المستخدم وتوجيه عملية التوليد. يعمل CLIP كمقيم، حيث يقيم مدى توافق المخرجات المرئية المولدة مع الوصف النصي، وهو أمر ضروري لتركيب تحويل النص إلى صورة عالي الجودة.
- اكتشاف الكائنات مفتوح المفردات: تدمج البنى المتقدمة مثل YOLO-World تضمينات CLIP لاكتشاف الكائنات بناءً على مدخلات نصية اختيارية. يسمح هذا بالاكتشاف الديناميكي في مجالات مثل الذكاء الاصطناعي في الرعاية الصحية، حيث يكون تحديد المعدات الجديدة أو الشذوذ ضرورياً دون إعادة التدريب.
Link to this sectionاستخدام ميزات CLIP مع Ultralytics#
بينما تقتصر كاشفات الكائنات القياسية على فئات تدريبها، فإن استخدام ميزات قائمة على CLIP يسمح بالاكتشاف مفتوح المفردات. يوضح كود Python التالي كيفية استخدام حزمة ultralytics لاكتشاف الكائنات باستخدام مطالبات نصية مخصصة:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")
# Display the results
results[0].show()Link to this sectionالتمييز بين المفاهيم ذات الصلة#
من المفيد التمييز بين CLIP ونماذج الذكاء الاصطناعي الشائعة الأخرى لفهم فائدته المحددة:
- CLIP مقابل التعلم الخاضع للإشراف: تتطلب النماذج الخاضعة للإشراف التقليدية تعريفات صارمة وأمثلة مصنفة لكل فئة (مثل "قطة"، "سيارة"). يتعلم CLIP من أزواج نص-صورة خام موجودة على الويب، مما يوفر مرونة أكبر ويزيل عقبة التعليق التوضيحي اليدوي الذي غالباً ما تتم إدارته عبر أدوات مثل منصة Ultralytics.
- CLIP مقابل YOLO26: بينما يوفر CLIP فهماً عاماً للمفاهيم، يعد YOLO26 كاشف كائنات متخصص يعمل في الوقت الفعلي ومحسن للسرعة والتموضع الدقيق. غالباً ما يُستخدم CLIP كمستخرج ميزات أو مصنف بدون أمثلة، في حين أن YOLO26 هو المحرك لـ الاستدلال في الوقت الفعلي عالي السرعة في بيئات الإنتاج.
- CLIP مقابل التعلم التبايني القياسي: تقارن أساليب مثل SimCLR عموماً بين عرضين معززين لنفس الصورة لتعلم الميزات. يقوم CLIP بمقارنة صورة مقابل وصف نصي، مما يربط بين نمطين مختلفين من البيانات بدلاً من نمط واحد فقط.






