Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

CLIP (التدريب المسبق المغاير للغة-الصورة)

اكتشف كيف أحدث CLIP من OpenAI ثورة في الذكاء الاصطناعي من خلال التعلم الصفري، ومواءمة الصور والنصوص، والتطبيقات الواقعية في رؤية الكمبيوتر.

CLIP (التدريب المسبق على الصورة اللغوية المتباينة) هو نموذج رائد متعدد الوسائط قدمته شركة OpenAI التي تسدّ الفجوة بين الرؤية الحاسوبية ومعالجة اللغة الطبيعية ومعالجة اللغة الطبيعية. على عكس أنظمة الرؤية الحاسوبية التقليدية التي يتم تدريبها على مجموعات ثابتة من الفئات المصنفة مسبقًا، يتعلم CLIP ربط الصور مع الأوصاف النصية من خلال التدريب على مئات الملايين من أزواج الصور والنصوص المجمعة من الإنترنت. هذا النهج يسمح للنموذج بفهم المفاهيم البصرية من خلال عدسة اللغة الطبيعية، مما يتيح قدرةً تُعرف باسم التعلّم من الصفر، حيث يمكن للنموذج أن classify الصور بشكل صحيح إلى فئات لم يسبق له أن رآها صراحةً أثناء التدريب. من خلال مواءمة المعلومات المرئية والنصية في مساحة ميزات مشتركة، يعمل CLIP كنموذج أساسي متعدد الاستخدامات متعدد الاستخدامات لمجموعة واسعة من مهام الذكاء الاصطناعي النهائية من مهام الذكاء الاصطناعي اللاحقة.

كيفية عمل CLIP

تعتمد الآلية الأساسية وراء CLIP على مشفرين منفصلين: مُشفِّر محول الرؤية (ViT) أو شبكة ريسنت لمعالجة الصور لمعالجة الصور، ومحوّل نصي لمعالجة اللغة اللغة. يستخدم النموذج التعلم التبايني لمزامنة هاتين الطريقتين. أثناء التدريب، يتلقى CLIP مجموعة من أزواج (صورة، نص) ويتعلم التنبؤ بوصف النص يطابق أي صورة. يعمل على تحسين معلماته لتعظيم التشابه في جيب التمام بين التضمينات للأزواج الصحيحة مع تقليل التشابه التشابه للأزواج غير الصحيحة.

ينتج عن عملية التدريب هذه مساحة كامنة مشتركة حيث تقع الصور والنصوص المتشابهة دلالياً بالقرب من من بعضها البعض. على سبيل المثال، سيكون التمثيل المتجه لصورة "المسترد الذهبي" قريبًا جدًا من التمثيل المتجه للسلسلة النصية "صورة مسترد ذهبي". تسمح هذه المحاذاة للمطورين بإجراء تصنيف للصور عن طريق ببساطة توفير قائمة من التسميات النصية المحتملة، والتي يقارنها النموذج مع الصورة المدخلة للعثور على أفضل تطابق.

تطبيقات واقعية

أدت مرونة CLIP إلى اعتماده في العديد من الصناعات والتطبيقات:

  • البحث الدلالي عن الصور: يعتمد البحث التقليدي على البيانات الوصفية أو العلامات، لكن CLIP يتيح البحث الدلالي حيث يمكن للمستخدمين الاستعلام عن الصور باستخدام أوصاف اللغة الطبيعية. على سبيل المثال، البحث عن "شاطئ مزدحم عند غروب الشمس" يسترجع الصور ذات الصلة بناءً على المحتوى المرئي بدلاً من الكلمات المفتاحية، وهي تقنية ذات قيمة ل الذكاء الاصطناعي في البيع بالتجزئة وإدارة الأصول الرقمية.
  • توجيه النماذج التوليدية: يلعب برنامج CLIP دورًا حاسمًا في تقييم وتوجيه مولدات تحويل النص إلى صورة. من خلال تسجيل مدى تطابق الصورة التي تم إنشاؤها تتطابق مع مطالبة المستخدم، فإنها تعمل كمقياس قابل للتوجيه لنماذج مثل الانتشار المستقر و VQGAN، مما يضمن توافق المخرجات المرئية مع النص النصية.
  • اعتدال المحتوى: تستخدم المنصات برنامج CLIP لتصفية المحتوى غير اللائق من خلال مقارنة الصور مع الأوصاف النصية للفئات المحظورة. هذا الإجراء الآلي الآلي لأمن البيانات هذا أكثر فعالية من المراجعة اليدوية.

CLIP في كشف الكائنات

بينما تم تصميم CLIP في الأصل للتصنيف، فقد تم دمج إمكانيات ترميز النصوص الخاصة به في الحديثة للكشف عن الكائنات لتمكين الكشف عن المفردات المفتوحة. يسمح نموذج YOLO للمستخدمين بتحديد فئات مخصصة في وقت التشغيل باستخدام مطالبات اللغة الطبيعية، والاستفادة من الفهم اللغوي ل CLIP لتحديد الكائنات دون إعادة التدريب.

يشرح المثال التالي كيفية استخدام نموذج YOLO مع ultralytics حزمة detect كائنات مخصصة محددة بالنص:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP مقابل نماذج الرؤية التقليدية

من المهم تمييز CLIP عن النماذج القياسية الخاضعة للإشراف مثل ResNet أو الإصدارات السابقة من YOLO.

  • عادةً ما يتم تدريب النماذج التقليدية على مجموعات بيانات مغلقة مثل ImageNet مع عدد ثابت من الأصناف (على سبيل المثال، 1,000 فئة فئة). إذا كانت هناك حاجة إلى فئة جديدة، فإن النموذج يتطلب ضبطاً دقيقاً باستخدام بيانات موسومة جديدة.
  • CLIP هو متعلم مفتوح المفردات. يمكنه التعميم على أي مفهوم يمكن وصفه في النص. بينما النماذج المتخصصة مثل YOLO11 توفر سرعة فائقة ودقة توطين فائقة لمهام محددة، فإن CLIP يوفر تنوعًا لا مثيل له للفهم المعمم.

غالبًا ما تجمع الأبحاث الحديثة بين هذه الأساليب. على سبيل المثال, نماذج لغة الرؤية (VLMs) غالبًا ما تستخدم CLIP كعمود فقري لتوفير الثراء الدلالي، بينما تهدف التحسينات المعمارية من نماذج مثل YOLO26 تهدف إلى تعزيز سرعة ودقة هذه الأنظمة متعددة الوسائط.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن