اكتشف SigLIP، وهو نهج الخسارة السيني الذي يحافظ على كفاءة استخدام الذاكرة لنماذج الرؤية واللغة. تعرف على كيفية تحسينه لعملية التوسع والتدريب فيYOLO Ultralytics YOLO .
SigLIP، وهو اختصار لـ «Sigmoid Loss for Language Image Pre-Training»، هو نهج عالي الكفاءة لتدريب نماذج الرؤية واللغة. وقد تم تقديم هذه الطريقة في الأصل من قِبل باحثين في Google ، وهي تُحدث تغييرًا جذريًا في الطريقة التي تتعلم بها نماذج الذكاء الاصطناعي العلاقة بين الصور والأوصاف النصية المقابلة لها. من خلال استبدال دوال الاحتمالات التقليدية بنهج تصنيف ثنائي أبسط، تتيح SigLIP للمطورين تدريب بنى متعددة الوسائط ضخمة مع عبء أقل بكثير على الذاكرة وكفاءة حسابية أعلى.
في مسارات التعلم الآلي القياسية التي تجمع بين البيانات المرئية والنصية، تعتمد النماذج عادةً على نظرة شاملة لجميع البيانات الموجودة في دفعة معينة من أجل التعلم بشكل صحيح. يقضي SigLIP على هذا العائق من خلال التعامل مع كل زوج من الصورة والنص على أنه مشكلة تصنيف ثنائي مستقلة. وباستخدام دالة سيغمويد قياسية، يقوم النموذج ببساطة بالتنبؤ بما إذا كانت صورة معينة ووصف نصي لها متطابقين أم لا.
هذا النهج الموضعي لدالة الخسارة يعني أن الذاكرة المطلوبة أثناء تدريب النموذج تتزايد بشكل خطي وليس تربيعي. وبالتالي، يمكن للمهندسين استخدام أحجام دفعات أكبر بكثير على تكوينات الأجهزة القياسية التي تدعمها أطر عمل مثل PyTorch، مما يؤدي إلى تحسين الأداء على مجموعات البيانات المتنوعة دون الحاجة إلى زيادة أسية في GPU .
عند استكشاف بنى الذكاء الاصطناعي الحديثة، من الضروري التمييز بين SigLIP وسابقه، CLIP (التدريب المسبق المقارن للغة والصورة).
إن تصميم SigLIP الموفر للذاكرة يجعله أساسًا قويًا لمختلف التطبيقات العملية في جميع أنحاء صناعة التكنولوجيا:
عند إدارة البيانات المخصصة لهذه الأنواع من مهام الرؤية المعقدة، غالبًا ما تلجأ الفرق إلى Ultralytics لتبسيط عملية تعليق مجموعات البيانات السحابية و دمج الرؤى المستخلصة من النصوص والصور بسلاسة قبل نشر نماذج متقدمة مثل Ultralytics من أجل الاستدلال عالي السرعة على الحافة.
لفهم كيفية حساب SigLIP للخسارة على المستوى الأساسي، يمكنك محاكاة العملية باستخدام العمليات الأساسية PyTorch Tor PyTorch . يوضح هذا المقتطف كيف يحل نهج السيغمويد الزوجي محل منطق الاحتمالات التقليدي متعدد الفئات.
import torch
import torch.nn.functional as F
# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)
# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)
# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()
print(f"Calculated SigLIP Loss: {loss.item():.4f}")
من خلال الاستفادة من هذا النهج المبسط، يواصل مجتمع الذكاء الاصطناعي الأوسع نطاقاً، بما في ذلك الباحثون الذين ينشرون أبحاثهم في مؤسسات مثل IEEE و ACM، توسيع آفاق التعلم متعدد الوسائط، ووضع نصائح جديدة لتدريب النماذج وأفضل الممارسات من أجل الجيل القادم من الذكاء الاصطناعي في مجال الرؤية.
ابدأ رحلتك مع مستقبل تعلم الآلة