Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

محول الرؤية (ViT)

اكتشف قوة Vision Transformers (ViTs) في رؤية الكمبيوتر. تعرف على كيفية تفوقها على CNNs من خلال التقاط سياق الصورة العالمي.

محول الرؤية (ViT) هو عبارة عن بنية التعلم العميق التي تطبق مبادئ نموذج المحول الأصلي مباشرةً على تسلسل الصور. تم تقديمه في الأصل من أجل معالجة اللغة الطبيعية (NLP), أحدثت المحولات ثورة في هذا المجال من خلال استخدام آليات تسمح للنموذج بتقييم أهمية أجزاء من البيانات المدخلة. اقترحت شركة Google للأبحاث في ورقة بحثية بعنوان "صورة تساوي 16 × 16 كلمة" كبديل عن القياسية الشبكة العصبية التلافيفية القياسية (CNN) للمهام البصرية. على عكس الشبكات العصبية التلافيفية، التي تعالج وحدات البكسل باستخدام مرشحات محلية، تتعامل الشبكات العصبية التلافيفية مع الصورة كسلسلة من البقع ذات الحجم الثابت، مما يمكّنها من التقاط السياق العالمي والتبعيات بعيدة المدى من الطبقة الأولى باستخدام الانتباه الذاتي.

كيف تعمل Vision Transformers

تمثّل بنية تقنية الفيديو الافتراضي تحولاً كبيراً في كيفية معالجة الآلات للمعلومات المرئية. سير العمل يتضمن تقسيم الصورة إلى مكونات أصغر يمكن معالجتها بشكل مشابه للكلمات في الجملة.

  1. تقسيم الرقعة: يتم تقسيم صورة الإدخال إلى شبكة من الرقع غير المتداخلة (على سبيل المثال، 16 × 16 بكسل). تقوم هذه الخطوة بتحويل الصورة ثنائية الأبعاد إلى سلسلة من المتجهات ثنائية الأبعاد، مما يؤدي إلى ترميز البيانات المرئية بشكل فعال.
  2. الإسقاط الخطي للرقع المسطحة: يتم تسطيح كل رقعة وإسقاطها في فضاء أقل بُعدًا، مما يؤدي إلى إنشاء تضمينات تمثل السمات البصرية لتلك المنطقة المحددة.
  3. التضمينات الموضعية: نظرًا لأن بنية المحول لا تفهم بطبيعتها ترتيب من التسلسل، تتم إضافة التضمينات الموضعية القابلة للتعلم إلى تضمينات الرقعة للاحتفاظ بالمعلومات المكانية حول مكان وجود كل رقعة في الصورة الأصلية.
  4. مشفر المحولات: يتم تغذية تسلسل التضمينات في مشفر محول قياسي. هنا, تسمح آلية الانتباه للنموذج بتعلّم العلاقات بين كل رقعة وكل رقعة أخرى، بغض النظر عن المسافة التي تفصلها عن بعضها البعض في الصورة.
  5. رئيس التصنيف: لمهام مثل تصنيف الصور، يتم إضافة رمز مميز خاص إلى التسلسل، ويتم تغذية حالته النهائية في رأس مستقبلي متعدد الطبقات (MLP) للتنبؤ بالفئة التسمية.

هندسة ViT مقابل بنية CNN

في حين أن كلا البنيتين أساسيتان أساسيتان في الحديثة للرؤية الحاسوبية (CV)، إلا أنهما تعتمدان على تحيزات استقرائية مختلفة. تستخدم CNNs عمليات الالتفاف التي تعطي الأولوية للتفاعلات المحلية وعدم ثبات الترجمة (التعرف على الجسم بغض النظر عن موضعه). وهذا يجعل الشبكات الشبكية الشبكية ذات كفاءة عالية مع مجموعات البيانات الأصغر. وعلى النقيض من ذلك، فإن عمليات التحويل التفاعلي لديها بنية أقل خاصة بالصورة وتعتمد على تعلم الأنماط مباشرةً من مجموعات بيانات ضخمة مثل ImageNet.

عادةً ما تتفوّق شبكات افتراضية افتراضية عند تدريبها على كميات كبيرة جدًا من البيانات، حيث يمكنها نمذجة العلاقات العالمية المعقدة التي قد لا تراها قد تفوتها شبكات CNNs. ومع ذلك، غالبًا ما يأتي هذا النطاق العالمي على حساب المتطلبات الحسابية الأعلى من أجل للتدريب وسرعات استنتاج أبطأ على الأجهزة ذات الموارد المحدودة المحدودة الموارد. النماذج الهجينة مثل RT-DETR محاولة لسد هذه الفجوة من خلال الجمع بين العمود الفقري ل CNN العمود الفقري لاستخراج الميزات بكفاءة مع مشفر محول للسياق العالمي.

تطبيقات واقعية

لقد حققت محولات الرؤية نجاحًا في المجالات التي يكون فيها فهم السياق الكلي للمشهد أكثر أهمية من تفاصيل النسيج منخفضة المستوى.

  • تحليل الصور الطبية: في مجالات مثل تحليل الصور الطبية، تُستخدم تقنية VTs في detect الحالات الشاذة في فحوصات التصوير بالرنين المغناطيسي أو الأشعة السينية. على سبيل المثال، في الكشف عن الأورام, يمكن للتقنية الافتراضية ربط السمات من أجزاء بعيدة من العضو لتحديد الأنسجة الخبيثة التي قد تبدو طبيعية في بمعزل عن غيرها، مما يحسن دقة التشخيص.
  • الاستشعار عن بعد وصور الأقمار الصناعية: تُستخدم تقنيات الاستشعار عن بُعد بفعالية لتحليل صور الأقمار الصناعية للرصد البيئي. حيث تساعد قدرتها على معالجة السياق العالمي في التمييز بين أنواع التضاريس المتشابهة، مثل التمييز بين حقول المحاصيل المتنوعة أو تتبع التوسع العمراني في مناطق جغرافية واسعة.

استخدام المحولات مع Ultralytics

إن ultralytics تدعم الحزمة البنى المستندة إلى المحولات مثل RT-DETR (الكشف في الوقت الحقيقي Transformer)، والتي تستفيد من نقاط قوة محولات VTs من أجل اكتشاف الأجسام. في حين أن النماذج القائمة على CNN مثل الموصى بها YOLO11 عادةً ما تكون أسرع في الوقت الفعلي توفر تطبيقات RT-DETR بديلاً قويًا عندما تكون الأولوية للدقة العالية والسياق العالمي.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

بالنظر إلى المستقبل، فإن الابتكارات في مجال الكفاءة أمر بالغ الأهمية. تعمل Ultralytics حاليًا على تطوير YOLO26، الذي يهدف إلى توفير الدقة العالية المرتبطة بالمحوّلات مع الحفاظ على سرعة أجهزة CNN. بالإضافة إلى ذلك، ستعمل ستعمل منصةUltralytics القادمة على تبسيط سير العمل لتدريب ونشر هذه النماذج المتقدمة عبر بيئات مختلفة، من الخوادم السحابية إلى الأجهزة المتطورة. الأطر الرئيسية مثل PyTorch و TensorFlow في توسيع دعمهما لمتغيرات ViT، مما يؤدي إلى إجراء المزيد من الأبحاث في هذا المجال.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن