Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

SigLIP

اكتشف SigLIP، وهو نهج الخسارة السيني الذي يحافظ على كفاءة استخدام الذاكرة لنماذج الرؤية واللغة. تعرف على كيفية تحسينه لعملية التوسع والتدريب فيYOLO Ultralytics YOLO .

SigLIP، وهو اختصار لـ «Sigmoid Loss for Language Image Pre-Training»، هو نهج عالي الكفاءة لتدريب نماذج الرؤية واللغة. وقد تم تقديم هذه الطريقة في الأصل من قِبل باحثين في Google ، وهي تُحدث تغييرًا جذريًا في الطريقة التي تتعلم بها نماذج الذكاء الاصطناعي العلاقة بين الصور والأوصاف النصية المقابلة لها. من خلال استبدال دوال الاحتمالات التقليدية بنهج تصنيف ثنائي أبسط، تتيح SigLIP للمطورين تدريب بنى متعددة الوسائط ضخمة مع عبء أقل بكثير على الذاكرة وكفاءة حسابية أعلى.

فهم الهندسة المعمارية

في مسارات التعلم الآلي القياسية التي تجمع بين البيانات المرئية والنصية، تعتمد النماذج عادةً على نظرة شاملة لجميع البيانات الموجودة في دفعة معينة من أجل التعلم بشكل صحيح. يقضي SigLIP على هذا العائق من خلال التعامل مع كل زوج من الصورة والنص على أنه مشكلة تصنيف ثنائي مستقلة. وباستخدام دالة سيغمويد قياسية، يقوم النموذج ببساطة بالتنبؤ بما إذا كانت صورة معينة ووصف نصي لها متطابقين أم لا.

هذا النهج الموضعي لدالة الخسارة يعني أن الذاكرة المطلوبة أثناء تدريب النموذج تتزايد بشكل خطي وليس تربيعي. وبالتالي، يمكن للمهندسين استخدام أحجام دفعات أكبر بكثير على تكوينات الأجهزة القياسية التي تدعمها أطر عمل مثل PyTorch، مما يؤدي إلى تحسين الأداء على مجموعات البيانات المتنوعة دون الحاجة إلى زيادة أسية في GPU .

التمييز بين SigLIP وCLIP

عند استكشاف بنى الذكاء الاصطناعي الحديثة، من الضروري التمييز بين SigLIP وسابقه، CLIP (التدريب المسبق المقارن للغة والصورة).

  • CLIP: يعتمد على دالة خسارة softmax، والتي تتطلب من النموذج مقارنة الصورة بجميع الأوصاف النصية في الدفعة في وقت واحد. وهذا يؤدي إلى اختناق شديد في الذاكرة أثناء تدريب التعلم العميق مع زيادة حجم الدفعات.
  • SigLIP: يستخدم خسارة سيغمويد ثنائية. ولا يحتاج سوى إلى تقييم ما إذا كان زوج الصورة والنص هو تطابق حقيقي أم تطابق خاطئ، مما يجعله قابلاً للتوسع بدرجة كبيرة وأسهل في التوزيع عبر أجهزة متعددة عند تحسين سير عمل الذكاء الاصطناعي.

تطبيقات واقعية

إن تصميم SigLIP الموفر للذاكرة يجعله أساسًا قويًا لمختلف التطبيقات العملية في جميع أنحاء صناعة التكنولوجيا:

  • تصنيف الصور بدون تدريب مسبق: يتفوق SigLIP في تصنيف الصور إلى فئات جديدة لم يسبق له رؤيتها صراحةً أثناء التدريب. وهذا مفيد للغاية لأنظمة تصنيف الصور الديناميكية حيث تتغير الفئات بشكل متكرر، مما يلغي الحاجة إلى وضع العلامات اليدوية المستمرة على البيانات.
  • محركات البحث الدلالي: من خلال إنشاء تضمينات متعددة الوسائط عالية الدقة، يدعم SigLIP أنظمة الاسترجاع المتقدمة. يمكن للمستخدمين إدخال استعلامات نصية معقدة للبحث بدقة عالية في قواعد بيانات الصور الضخمة غير المنظمة.

عند إدارة البيانات المخصصة لهذه الأنواع من مهام الرؤية المعقدة، غالبًا ما تلجأ الفرق إلى Ultralytics لتبسيط عملية تعليق مجموعات البيانات السحابية و دمج الرؤى المستخلصة من النصوص والصور بسلاسة قبل نشر نماذج متقدمة مثل Ultralytics من أجل الاستدلال عالي السرعة على الحافة.

مثال على التنفيذ

لفهم كيفية حساب SigLIP للخسارة على المستوى الأساسي، يمكنك محاكاة العملية باستخدام العمليات الأساسية PyTorch Tor PyTorch . يوضح هذا المقتطف كيف يحل نهج السيغمويد الزوجي محل منطق الاحتمالات التقليدي متعدد الفئات.

import torch
import torch.nn.functional as F

# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)

# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)

# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()

print(f"Calculated SigLIP Loss: {loss.item():.4f}")

من خلال الاستفادة من هذا النهج المبسط، يواصل مجتمع الذكاء الاصطناعي الأوسع نطاقاً، بما في ذلك الباحثون الذين ينشرون أبحاثهم في مؤسسات مثل IEEE و ACM، توسيع آفاق التعلم متعدد الوسائط، ووضع نصائح جديدة لتدريب النماذج وأفضل الممارسات من أجل الجيل القادم من الذكاء الاصطناعي في مجال الرؤية.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة