مسرد المصطلحات

محول الرؤية (ViT)

اكتشف قوة محولات الرؤية (ViTs) في الرؤية الحاسوبية. تعلّم كيف تتفوق في أدائها على شبكات CNN من خلال التقاط سياق الصورة العالمي.

إن محول الرؤية (ViT) هو نوع من هندسة الشبكات العصبية التي تطبق نموذج المحول الناجح للغاية، المصمم في الأصل لمعالجة اللغات الطبيعية (NLP)، على مهام الرؤية الحاسوبية (CV). تم تقديمها من قبل باحثي Google في ورقة بحثية بعنوان "صورة تساوي 16 × 16 كلمة"، وتمثل شبكات الرؤية البصرية المتغيرة (ViTs) خروجًا كبيرًا عن البنى السائدة للشبكة العصبية التلافيفية (CNN). فبدلاً من معالجة الصور باستخدام مرشحات انزلاقية، تتعامل الشبكة العصبية التلافيفية مع الصورة كسلسلة من الرقع، مما يتيح لها التقاط العلاقات العامة بين الأجزاء المختلفة من الصورة باستخدام آلية الانتباه الذاتي.

كيفية عمل محولات الرؤية

تتمثل الفكرة الأساسية وراء VT في معالجة صورة بطريقة تحاكي كيفية معالجة المتحولين للنصوص. تتضمن العملية بعض الخطوات الرئيسية:

  1. ترقيع الصورة: يتم أولاً تقسيم صورة الإدخال إلى شبكة من الرقع ذات الحجم الثابت وغير المتداخلة. على سبيل المثال، يمكن تقسيم صورة بحجم 224 × 224 بكسل إلى 196 رقعة، كل منها 16 × 16 بكسل.
  2. تضمين الرقعة: يتم تسطيح كل رقعة إلى متجه واحد. ثم يتم إسقاط هذه المتجهات في فضاء منخفض الأبعاد لإنشاء "تضمينات رقعة". تتم إضافة "التضمين الموضعي" القابل للتعلم إلى كل تضمين رقعة للاحتفاظ بالمعلومات المكانية.
  3. مشفر المحولات: يتم تغذية هذا التسلسل من التضمينات في مُشفِّر مُحوِّل قياسي. يتعلم النموذج، من خلال طبقات الانتباه الذاتي، العلاقات بين جميع أزواج الرقع، مما يسمح له بالتقاط السياق العام عبر الصورة بأكملها من الطبقة الأولى.
  4. رأس التصنيف: بالنسبة لمهام مثل تصنيف الصور، تتم إضافة تضمين إضافي قابل للتعلم (مشابه لرمز [CLS] في BERT) إلى التسلسل. يتم تمرير الناتج المقابل من المحول إلى طبقة تصنيف نهائية لإنتاج التنبؤ.

في تي ضد سي إن إن إن

في حين أن كلاً من الشبكات الافتراضية الافتراضية وشبكات CNN هي بنيات أساسية في الرؤية الحاسوبية، إلا أنها تختلف بشكل كبير في نهجها:

  • التحيز الاستقرائي: تمتلك CNNs تحيزات استقرائية قوية (افتراضات حول البيانات) مثل التباين المحلي وتساوي الترجمة من خلال طبقات التلافيف والتجميع. أما الشبكات الافتراضية الافتراضية الافتراضية فلديها تحيزات استقرائية أضعف بكثير، مما يجعلها أكثر مرونة ولكنها أيضًا أكثر اعتمادًا على تعلم الأنماط مباشرةً من البيانات.
  • الاعتماد على البيانات: نظرًا لتحيزاتها الأضعف، تتطلب الشبكات الافتراضية الافتراضية عمومًا مجموعات بيانات ضخمة (مثل ImageNet-21k) أو تدريبًا مسبقًا مكثفًا للتفوق على أحدث شبكات الشبكات الافتراضية المتكاملة. مع مجموعات البيانات الأصغر، غالبًا ما تعمم CNNs بشكل أفضل. هذا هو السبب في أهمية التعلّم التحويلي بالنسبة للتقنيات الافتراضية.
  • السياق العالمي مقابل السياق المحلي: تبني شبكات CNN ميزات هرمية من الأنماط المحلية إلى الأنماط العالمية. على النقيض من ذلك، يمكن أن تقوم الشبكات الافتراضية الافتراضية بنمذجة التفاعلات العالمية بين البقع من الطبقات الأولى، مما قد يؤدي إلى التقاط سياق أوسع نطاقًا بشكل أكثر فعالية لمهام معينة.
  • التكلفة الحسابية: يمكن أن يكون تدريب النماذج الافتراضية الافتراضية مكثفًا من الناحية الحسابية، وغالبًا ما يتطلب موارد كبيرة من وحدة معالجة الرسومات. توفر أطر عمل مثل PyTorch و TensorFlow تطبيقات لتدريب هذه النماذج.

التطبيقات والنماذج الهجينة

وقد أظهرت تقنية VTs أداءً استثنائياً في العديد من التطبيقات، خاصةً عندما يكون فهم السياق العالمي أمراً أساسياً.

  • تحليل الصور الطبية: تُعدّ النماذج الافتراضية فعّالة للغاية في تحليل الفحوصات الطبية مثل صور التصوير بالرنين المغناطيسي أو صور التشريح المرضي. على سبيل المثال، في مجال الكشف عن الأورام، يمكن للتقنية الافتراضية تحديد العلاقات بين الأنسجة البعيدة، مما يساعد على تصنيف الأورام بدقة أكبر من النماذج التي تركز فقط على القوام المحلي.
  • القيادة الذاتية: في السيارات ذاتية القيادة، يمكن للذكاء الاصطناعي في السيارات ذاتية القيادة تحليل المشاهد المعقدة لاكتشاف الأجسام وتجزئتها. من خلال معالجة المشهد بأكمله على مستوى العالم، يمكنها فهم التفاعلات بين المركبات والمشاة والبنية التحتية بشكل أفضل، كما هو مفصل في العديد من دراسات الذكاء الاصطناعي للسيارات.

كما ألهم نجاح النماذج الافتراضية الافتراضية أيضًا البنى الهجينة. تجمع النماذج مثل RT-DETR بين العمود الفقري لشبكة CNN لاستخراج الميزات بكفاءة مع وحدة تشفير وفك تشفير قائمة على المحولات لنمذجة علاقات الكائنات. يهدف هذا النهج إلى الحصول على أفضل ما في العالمين: كفاءة الشبكات الشبكية ذات المحركات الشبكية والوعي بالسياق العالمي للمحوّلات.

بالنسبة للعديد من التطبيقات في الوقت الحقيقي، خاصةً على الأجهزة الطرفية المحدودة الموارد، غالبًا ما توفر النماذج المحسّنة للغاية القائمة على شبكة CNN مثل عائلة YOLO من Ultralytics (على سبيل المثال، YOLOv8 و YOLO11) توازنًا أفضل بين السرعة والدقة. يمكنك الاطلاع على مقارنة مفصّلة بين RT-DETR و YOLO11 لفهم المفاضلة بينهما. يعتمد الاختيار بين ViT و CNN في نهاية المطاف على المهمة المحددة والبيانات المتاحة والميزانية الحسابية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة