SigLIP
استكشف SigLIP، وهو نهج خسارة sigmoid الفعال في الذاكرة لنماذج الرؤية واللغة. تعلم كيف يحسن القياس والتدريب لمشاريع Ultralytics YOLO.
SigLIP، والتي تعني Sigmoid Loss for Language Image Pre-Training، هي نهج عالي الكفاءة لتدريب نماذج الرؤية واللغة. تم تقديم هذه الطريقة في الأصل من قبل باحثين في Google Research، وهي تغير بشكل جذري كيفية تعلم نماذج الذكاء الاصطناعي للعلاقة بين الصور وأوصافها النصية المقابلة. من خلال استبدال دوال الاحتمالات التقليدية بنهج تصنيف ثنائي أبسط، تسمح SigLIP للمطورين بتدريب بنيات متعددة الوسائط ضخمة بعبء ذاكرة أقل بكثير وكفاءة حسابية أكبر.
Link to this sectionفهم البنية#
في خطوط أنابيب التعلم الآلي القياسية التي تربط بين البيانات المرئية والنصية، تعتمد النماذج عادةً على رؤية عالمية لجميع البيانات في دفعة معينة للتعلم بشكل صحيح. تقضي SigLIP على هذا الاختناق من خلال معاملة كل زوج من الصور والنصوص كمشكلة تصنيف ثنائي مستقلة. باستخدام دالة sigmoid قياسية، يتنبأ النموذج ببساطة بما إذا كانت صورة معينة ووصف نصي متطابقين أم لا.
هذا النهج المحلي لـ دالة الخسارة يعني أن الذاكرة المطلوبة أثناء تدريب النموذج تتوسع خطيًا بدلاً من تربيعيًا. ونتيجة لذلك، يمكن للمهندسين استخدام أحجام دفعات أكبر بشكل كبير على تكوينات الأجهزة القياسية المدعومة من قبل أطر عمل مثل PyTorch، مما يؤدي إلى تحسين الأداء على مجموعات بيانات متنوعة دون الحاجة إلى زيادات أسية في موارد GPU.
Link to this sectionتمييز SigLIP عن CLIP#
عند استكشاف بنيات الذكاء الاصطناعي الحديثة، من الضروري التمييز بين SigLIP وسابقتها، CLIP (Contrastive Language-Image Pre-training).
- CLIP: يعتمد على دالة خسارة softmax، والتي تتطلب من النموذج مقارنة صورة مقابل جميع الأوصاف النصية في دفعة واحدة في وقت واحد. وهذا يخلق اختناقًا حادًا في الذاكرة أثناء تدريب التعلم العميق مع زيادة أحجام الدفعات.
- SigLIP: يستخدم خسارة sigmoid مزدوجة. يحتاج فقط إلى تقييم ما إذا كان زوج واحد من الصور والنص يمثل تطابقًا صحيحًا أو تطابقًا خاطئًا، مما يجعله قابلاً للتطوير بدرجة كبيرة وأسهل في التوزيع عبر أجهزة متعددة عند تحسين سير عمل الذكاء الاصطناعي.
Link to this sectionتطبيقات العالم الحقيقي#
يجعل تصميم SigLIP الموفر للذاكرة منه أساسًا قويًا لمختلف التطبيقات العملية في جميع أنحاء صناعة التكنولوجيا:
- تصنيف الصور بدون تدريب مسبق: تتفوق SigLIP في تصنيف الصور إلى فئات جديدة لم ترها بوضوح أثناء التدريب. هذا مفيد للغاية لأنظمة تصنيف الصور الديناميكية حيث تتغير الفئات بشكل متكرر، مما يلغي الحاجة إلى تصنيف البيانات اليدوي المستمر.
- محركات البحث الدلالي: من خلال إنشاء تضمينات متعددة الوسائط دقيقة للغاية، تدعم SigLIP أنظمة استرجاع متقدمة. يمكن للمستخدمين إدخال استعلامات نصية معقدة للبحث عبر قواعد بيانات ضخمة وغير منظمة من الصور بدقة عالية.
عند إدارة بيانات مخصصة لهذه الأنواع من مهام الرؤية المعقدة، غالبًا ما تلجأ الفرق إلى Ultralytics Platform لتبسيط تعليق مجموعة بيانات السحابة ودمج رؤى النص والصورة بسلاسة قبل نشر نماذج متقدمة مثل Ultralytics YOLO26 للاستنتاج عالي السرعة على الحافة.
Link to this sectionمثال على التنفيذ#
لفهم كيفية حساب SigLIP للخسارة على مستوى أساسي، يمكنك محاكاة العملية باستخدام عمليات PyTorch الأساسية. يوضح هذا المقتطف كيف يحل نهج sigmoid المزدوج محل منطق احتمالية الفئات المتعددة التقليدي.
import torch
import torch.nn.functional as F
# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)
# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)
# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()
print(f"Calculated SigLIP Loss: {loss.item():.4f}")من خلال الاستفادة من هذا النهج المبسط، يواصل مجتمع الذكاء الاصطناعي الأوسع، بما في ذلك الباحثون الذين ينشرون في مؤسسات مثل IEEE و ACM، دفع حدود التعلم متعدد الوسائط، مما يضع نصائح تدريب النماذج جديدة وأفضل الممارسات للجيل القادم من رؤية الذكاء الاصطناعي.






