مسرد المصطلحات

محول الرؤية (ViT)

اكتشف قوة محولات الرؤية (ViTs) في الرؤية الحاسوبية. تعلّم كيف تتفوق في أدائها على شبكات CNN من خلال التقاط سياق الصورة العالمي.

إن محول الرؤية (ViT) هو نوع من بنية الشبكات العصبية المقتبسة من نماذج المحولات المصممة أصلاً لمعالجة اللغات الطبيعية (NLP). تم تقديمها من قبل باحثي Google في ورقة بحثية بعنوان "صورة تساوي 16 × 16 كلمة"، تطبق نماذج المحولات البصرية آلية الانتباه الذاتي للمحول مباشرةً على تسلسلات من رقع الصور، وتعامل معالجة الصور كمهمة نمذجة تسلسلية. ويمثل هذا النهج تحولاً كبيراً عن هيمنة الشبكات العصبية التلافيفية (CNNs) في مجال الرؤية الحاسوبية.

كيفية عمل محولات الرؤية

وبدلاً من معالجة الصور بكسل تلو الآخر باستخدام مرشحات التلافيف، تقسم تقنية معالجة الصور الافتراضية أولاً صورة المدخلات إلى رقع ثابتة الحجم وغير متداخلة. ثم يتم بعد ذلك تسطيح هذه الرقع إلى متجهات، ويتم تضمينها خطيًا، ثم يتم تعزيزها بتضمينات موضعية للاحتفاظ بالمعلومات المكانية (على غرار كيفية ترميز مواضع الكلمات في معالجة اللغات الطبيعية). ثم يتم تغذية هذه السلسلة من المتجهات في مشفر محول قياسي، والذي يستخدم طبقات من الانتباه الذاتي متعدد الرؤوس لتقييم أهمية الرقع المختلفة بالنسبة لبعضها البعض. عادةً ما يتم تمرير الناتج النهائي من مشفر المحولات إلى رأس تصنيف بسيط (مثل المُدرِك متعدد الطبقات) لمهام مثل تصنيف الصور. تسمح هذه البنية لـ ViTs بنمذجة التبعيات بعيدة المدى والسياق العالمي داخل الصورة بشكل فعال.

الملاءمة والتطبيقات

أصبحت محولات الرؤية ذات أهمية كبيرة في التعلم العميق الحديث نظرًا لقابليتها للتوسع وأدائها المثير للإعجاب، خاصةً مع التدريب المسبق واسع النطاق على مجموعات بيانات مثل ImageNet أو حتى مجموعات بيانات خاصة أكبر. إن قدرتها على نمذجة السياق العالمي تجعلها مناسبة لمجموعة واسعة من مهام السيرة الذاتية التي تتجاوز التصنيف الأساسي، بما في ذلك:

يتم دمج VTs على نحو متزايد في منصات مثل Ultralytics HUB ومكتبات مثل Hugging Face Transformers، مما يجعلها متاحة للبحث والنشر باستخدام أطر عمل مثل PyTorch و TensorFlow. كما يمكن تحسينها أيضاً لنشر الذكاء الاصطناعي على الحافة على أجهزة مثل NVIDIA Jetson أو Edge TPU من Google باستخدام أدوات مثل TensorRT.

في تي ضد سي إن إن إن

في حين أن كلاً من نماذج الرؤية الافتراضية ونماذج سي إن إن إن هي بنيات أساسية في الرؤية الحاسوبية (انظر تاريخ نماذج الرؤية)، إلا أنها تختلف بشكل كبير في نهجها:

  • التحيز الاستقرائي: تمتلك شبكات CNN تحيزات استقرائية قوية تجاه التحيزات الاستقرائية تجاه التباين المحلي وتساوي الترجمة من خلال طبقات التلافيف والتجميع. بينما تمتلك الشبكات الافتراضية الافتراضية تحيزات استقرائية أضعف، حيث تعتمد بشكل أكبر على تعلم الأنماط من البيانات، خاصةً العلاقات بين الأجزاء البعيدة من الصورة من خلال الانتباه الذاتي.
  • الاعتماد على البيانات: تتطلب الشبكات الافتراضية الافتراضية عمومًا كميات كبيرة من بيانات التدريب (أو تدريبًا مسبقًا مكثفًا) لتتفوق على أحدث شبكات الشبكات الافتراضية المترابطة. مع مجموعات البيانات الأصغر، غالبًا ما تعمم CNNs بشكل أفضل بسبب تحيزاتها المدمجة.
  • التكلفة الحسابية: يمكن أن يكون تدريب النماذج الافتراضية الافتراضية مكثفًا من الناحية الحسابية، وغالبًا ما يتطلب موارد كبيرة من وحدة معالجة الرسومات. ومع ذلك، يمكن أن تكون سرعة الاستدلال تنافسية، خاصةً بالنسبة للنماذج الأكبر حجماً. فنماذج RT-DETR، على سبيل المثال، تقدم أداءً في الوقت الحقيقي ولكنها قد تحتاج إلى موارد أعلى من نماذج YOLO المماثلة القائمة على شبكة CNN.
  • السياق العالمي مقابل السياق المحلي: تبني CNNs ميزات هرمية من الأنماط المحلية. يمكن لـ ViTs نمذجة التفاعلات العالمية بين البقع من الطبقات الأولى، مما قد يؤدي إلى التقاط سياق أوسع بشكل أكثر فعالية لمهام معينة.

وغالبًا ما يعتمد الاختيار بين تقنية ViT وCNN على المهمة المحددة ومجموعات البيانات المتاحة والموارد الحاسوبية. عادةً ما تتفوق أدوات VTs بشكل عام عندما تتوفر كميات كبيرة من بيانات التدريب ويكون السياق العالمي أمرًا بالغ الأهمية. وتظل الشبكات الشبكية المترابطة، مثل تلك المستخدمة كعمود فقري في عائلة أولتراليتكس YOLO (على سبيل المثال، YOLOv8 و YOLOv10 و YOLO11)، فعالة وكفؤة للغاية، خاصةً في الكشف عن الأجسام في الوقت الحقيقي على الأجهزة المقيدة. كما تمثل البنى الهجينة التي تجمع بين الميزات التلافيفية وطبقات المحولات (كما هو الحال في RT-DETR) اتجاهًا واعدًا أيضًا، في محاولة للاستفادة من نقاط القوة في كلا النهجين. يعد الضبط الدقيق للنماذج المدربة مسبقاً، سواءً كانت النماذج القائمة على تقنية ViT أو CNN، ممارسة شائعة باستخدام تقنيات مثل التعلم التحويلي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة