اكتشف كيف أحدث CLIP من OpenAI ثورة في الذكاء الاصطناعي من خلال التعلم الصفري، ومواءمة الصور والنصوص، والتطبيقات الواقعية في رؤية الكمبيوتر.
CLIP (التدريب المسبق على الصورة اللغوية المتباينة) هو نموذج رائد متعدد الوسائط قدمته شركة OpenAI التي تسدّ الفجوة بين الرؤية الحاسوبية ومعالجة اللغة الطبيعية ومعالجة اللغة الطبيعية. على عكس أنظمة الرؤية الحاسوبية التقليدية التي يتم تدريبها على مجموعات ثابتة من الفئات المصنفة مسبقًا، يتعلم CLIP ربط الصور مع الأوصاف النصية من خلال التدريب على مئات الملايين من أزواج الصور والنصوص المجمعة من الإنترنت. هذا النهج يسمح للنموذج بفهم المفاهيم البصرية من خلال عدسة اللغة الطبيعية، مما يتيح قدرةً تُعرف باسم التعلّم من الصفر، حيث يمكن للنموذج أن classify الصور بشكل صحيح إلى فئات لم يسبق له أن رآها صراحةً أثناء التدريب. من خلال مواءمة المعلومات المرئية والنصية في مساحة ميزات مشتركة، يعمل CLIP كنموذج أساسي متعدد الاستخدامات متعدد الاستخدامات لمجموعة واسعة من مهام الذكاء الاصطناعي النهائية من مهام الذكاء الاصطناعي اللاحقة.
تعتمد الآلية الأساسية وراء CLIP على مشفرين منفصلين: مُشفِّر محول الرؤية (ViT) أو شبكة ريسنت لمعالجة الصور لمعالجة الصور، ومحوّل نصي لمعالجة اللغة اللغة. يستخدم النموذج التعلم التبايني لمزامنة هاتين الطريقتين. أثناء التدريب، يتلقى CLIP مجموعة من أزواج (صورة، نص) ويتعلم التنبؤ بوصف النص يطابق أي صورة. يعمل على تحسين معلماته لتعظيم التشابه في جيب التمام بين التضمينات للأزواج الصحيحة مع تقليل التشابه التشابه للأزواج غير الصحيحة.
ينتج عن عملية التدريب هذه مساحة كامنة مشتركة حيث تقع الصور والنصوص المتشابهة دلالياً بالقرب من من بعضها البعض. على سبيل المثال، سيكون التمثيل المتجه لصورة "المسترد الذهبي" قريبًا جدًا من التمثيل المتجه للسلسلة النصية "صورة مسترد ذهبي". تسمح هذه المحاذاة للمطورين بإجراء تصنيف للصور عن طريق ببساطة توفير قائمة من التسميات النصية المحتملة، والتي يقارنها النموذج مع الصورة المدخلة للعثور على أفضل تطابق.
أدت مرونة CLIP إلى اعتماده في العديد من الصناعات والتطبيقات:
بينما تم تصميم CLIP في الأصل للتصنيف، فقد تم دمج إمكانيات ترميز النصوص الخاصة به في الحديثة للكشف عن الكائنات لتمكين الكشف عن المفردات المفتوحة. يسمح نموذج YOLO للمستخدمين بتحديد فئات مخصصة في وقت التشغيل باستخدام مطالبات اللغة الطبيعية، والاستفادة من الفهم اللغوي ل CLIP لتحديد الكائنات دون إعادة التدريب.
يشرح المثال التالي كيفية استخدام نموذج YOLO مع ultralytics حزمة detect
كائنات مخصصة محددة بالنص:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
من المهم تمييز CLIP عن النماذج القياسية الخاضعة للإشراف مثل ResNet أو الإصدارات السابقة من YOLO.
غالبًا ما تجمع الأبحاث الحديثة بين هذه الأساليب. على سبيل المثال, نماذج لغة الرؤية (VLMs) غالبًا ما تستخدم CLIP كعمود فقري لتوفير الثراء الدلالي، بينما تهدف التحسينات المعمارية من نماذج مثل YOLO26 تهدف إلى تعزيز سرعة ودقة هذه الأنظمة متعددة الوسائط.