محول الرؤية (ViT)
اكتشف قوة Vision Transformers (ViTs) في رؤية الكمبيوتر. تعرف على كيفية تفوقها على CNNs من خلال التقاط سياق الصورة العالمي.
محول الرؤية (ViT) هو نوع من بنية الشبكة العصبونية (neural network) التي تطبق نموذج المحول (Transformer) الناجح للغاية، والذي تم تصميمه في الأصل لمعالجة اللغات الطبيعية (NLP)، على مهام رؤية الحاسوب (CV). يمثل ViT، الذي تم تقديمه من قبل باحثي Google في ورقة "صورة تساوي 16 × 16 كلمة"، خروجًا كبيرًا عن معماريات الشبكة العصبونية الالتفافية (CNN) المهيمنة. بدلاً من معالجة الصور باستخدام مرشحات منزلقة، يعامل ViT الصورة على أنها سلسلة من الرقع، مما يمكنه من التقاط العلاقات العالمية بين أجزاء مختلفة من الصورة باستخدام آلية الانتباه الذاتي (self-attention mechanism).
كيف تعمل Vision Transformers
الفكرة الأساسية وراء ViT هي معالجة الصورة بطريقة تحاكي كيفية معالجة المحولات للنص. تتضمن العملية بضع خطوات رئيسية:
- ترقيع الصور: يتم أولاً تقسيم صورة الإدخال إلى شبكة من الرقع ذات حجم ثابت وغير متداخلة. على سبيل المثال، يمكن تقسيم صورة بدقة 224 × 224 بكسل إلى 196 رقعة، كل منها بدقة 16 × 16 بكسل.
- تضمين الرقعة: يتم تسطيح كل رقعة في متجه واحد. ثم يتم إسقاط هذه المتجهات في مساحة ذات أبعاد أقل لإنشاء "تضمينات الرقعة". تتم إضافة "تضمين موضعي" قابل للتعلم إلى كل تضمين رقعة للاحتفاظ بالمعلومات المكانية.
- Transformer Encoder: يتم تغذية هذا التسلسل من التضمينات في وحدة ترميز Transformer القياسية. من خلال طبقات الانتباه الذاتي الخاصة به، يتعلم النموذج العلاقات بين جميع أزواج الرقع، مما يسمح له بالتقاط السياق العالمي عبر الصورة بأكملها من الطبقة الأولى.
- رأس التصنيف: لمهام مثل تصنيف الصور، تتم إضافة تضمين إضافي قابل للتعلم (على غرار رمز [CLS] في BERT) إلى التسلسل. يتم تمرير الإخراج المقابل من Transformer إلى طبقة تصنيف نهائية لإنتاج التنبؤ.
ViT مقابل CNNs
في حين أن كلاً من ViTs و CNNs هما بنيتان أساسيتان في مجال الرؤية الحاسوبية، إلا أنهما يختلفان اختلافًا كبيرًا في منهجهما:
- التحيز الاستقرائي: تمتلك الشبكات العصبية الالتفافية (CNNs) تحيزات استقرائية قوية (افتراضات حول البيانات) مثل المحلية وتغاير التحويل من خلال طبقات الالتفاف والتجميع الخاصة بها. تتمتع ViTs بتحيزات استقرائية أضعف بكثير، مما يجعلها أكثر مرونة ولكنه يجعلها أيضًا أكثر اعتمادًا على تعلم الأنماط مباشرة من البيانات.
- الاعتماد على البيانات: نظرًا لتحيزاتها الأضعف، تتطلب شبكات ViT عمومًا مجموعات بيانات ضخمة (مثل ImageNet-21k) أو تدريبًا مسبقًا مكثفًا لتتفوق على أحدث شبكات CNN. مع مجموعات البيانات الأصغر، غالبًا ما يكون تعميم شبكات CNN أفضل. هذا هو السبب في أن التعلم بالنقل أمر بالغ الأهمية لشبكات ViT.
- السياق العام مقابل السياق المحلي: تبني الشبكات العصبونية الالتفافية (CNNs) ميزات هرمية من الأنماط المحلية إلى الأنماط العامة. في المقابل، يمكن لـ ViTs نمذجة التفاعلات العامة بين الرقع من الطبقات الأولى، مما قد يلتقط سياقًا أوسع بشكل أكثر فعالية لمهام معينة.
- التكلفة الحسابية: يمكن أن يكون تدريب ViTs مكثفًا من الناحية الحسابية، وغالبًا ما يتطلب موارد GPU كبيرة. توفر أطر عمل مثل PyTorch و TensorFlow تطبيقات لتدريب هذه النماذج.
التطبيقات والنماذج الهجينة
أظهرت محولات الرؤية (ViTs) أداءً استثنائيًا في تطبيقات مختلفة، خاصةً عندما يكون فهم السياق العام أمرًا أساسيًا.
- تحليل الصور الطبية: تعتبر ViTs فعالة للغاية في تحليل الفحوصات الطبية مثل التصوير بالرنين المغناطيسي أو صور علم الأمراض النسيجية. على سبيل المثال، في الكشف عن الأورام، يمكن لـ ViT تحديد العلاقات بين الأنسجة البعيدة، مما يساعد على تصنيف الأورام بدقة أكبر من النماذج التي تركز فقط على الأنسجة المحلية.
- القيادة الذاتية: في السيارات ذاتية القيادة، يمكن لـ ViTs تحليل المشاهد المعقدة لاكتشاف الكائنات وتقسيمها. من خلال معالجة المشهد بأكمله عالميًا، يمكنهم فهم التفاعلات بين المركبات والمشاة والبنية التحتية بشكل أفضل، كما هو مفصل في العديد من دراسات الذكاء الاصطناعي للسيارات.
لقد ألهم نجاح ViT أيضًا تصميمات معمارية هجينة. تجمع نماذج مثل RT-DETR بين العمود الفقري لشبكة CNN لاستخراج الميزات بكفاءة مع وحدة ترميز-فك ترميز تعتمد على المحولات لنمذجة علاقات الكائنات. يهدف هذا النهج إلى الحصول على أفضل ما في العالمين: كفاءة شبكات CNN والوعي بالسياق العالمي للمحولات.
بالنسبة للعديد من التطبيقات في الوقت الفعلي، خاصةً على الأجهزة الطرفية ذات الموارد المحدودة، غالبًا ما توفر النماذج المحسّنة للغاية القائمة على CNN مثل عائلة Ultralytics YOLO (مثل YOLOv8 و YOLO11) توازنًا أفضل بين السرعة والدقة. يمكنك الاطلاع على مقارنة تفصيلية بين RT-DETR و YOLO11 لفهم المفاضلات. يعتمد الاختيار بين ViT و CNN في النهاية على المهمة المحددة والبيانات المتاحة والميزانية الحسابية.