اكتشف قوة محولات الرؤية (ViT). تعرف على كيفية إحداث الاهتمام الذاتي وترميز الباتش ثورة في الرؤية الحاسوبية بما يتجاوز شبكات CNNs مع Ultralytics.
Vision Transformer (ViT) هي بنية تعلم عميق تتكيف مع آليات الانتباه الذاتي المصممة أصلاً لمعالجة اللغة الطبيعية (NLP) لحل المهام البصرية. على عكس الشبكة العصبية التلافيفية (CNN) التقليدية، التي تعالج الصور من خلال هرمية من شبكات البكسل المحلية، تعامل ViT الصورة على أنها سلسلة من البقع المنفصلة. وقد اشتهرت هذه الطريقة بفضل البحث العلمي الرائد "صورة تساوي 16x16 كلمة"، الذي أظهر أن بنى المحولات البحتة يمكنها تحقيق أداء متطور في الرؤية الحاسوبية (CV) دون الاعتماد على طبقات التلافيف. من خلال الاستفادة من الانتباه الشامل، يمكن لـ ViTs التقاط التبعيات بعيدة المدى عبر الصورة بأكملها من الطبقة الأولى.
الابتكار الأساسي في ViT هو الطريقة التي ينظم بها البيانات المدخلة. لجعل الصورة متوافقة مع محول قياسي ، يقسم النموذج المعلومات المرئية إلى سلسلة من المتجهات، مقلداً الطريقة التي يعالج بها نموذج اللغة جملة من الكلمات.
بينما تهدف كلتا البنيتين إلى فهم البيانات المرئية، إلا أنهما تختلفان بشكل كبير في فلسفتهما التشغيلية. تمتلك شبكات CNN "تحيزًا استقرائيًا" قويًا يُعرف باسم ثبات الترجمة، مما يعني أنها تفترض بطبيعتها أن السمات المحلية (مثل الحواف والأنسجة) مهمة بغض النظر عن موقعها. وهذا يجعل شبكات CNN عالية الكفاءة والفعالية في التعامل مع مجموعات البيانات الصغيرة.
على العكس من ذلك، فإن محولات الرؤية (Vision Transformers) لديها تحيز أقل تجاه الصور. يجب أن تتعلم العلاقات المكانية من الصفر باستخدام كميات هائلة من بيانات التدريب، مثل JFT-300M أو ImageNet . في حين أن هذا يجعل التدريب أكثر كثافة من الناحية الحسابية، إلا أنه يسمح لـ ViTs بالتوسع بشكل جيد للغاية؛ مع وجود بيانات كافية وقوة حسابية ، يمكنها أن تتفوق على CNNs من خلال التقاط الهياكل العالمية المعقدة التي قد تفوت التلافيف المحلية.
إن القدرة على فهم السياق العالمي تجعل ViTs مفيدة بشكل خاص في البيئات المعقدة وذات المخاطر العالية.
إن ultralytics تدعم المكتبة البنى القائمة على المحولات، وأبرزها
RT-DETR محول الكشف في الوقت الحقيقي). في حين أن
الرائد يولو26 غالبًا ما يُفضل لكونه يوفر توازنًا بين السرعة
والدقة على الأجهزة الطرفية، RT-DETR بديلاً قويًا للسيناريوهات التي تعطي الأولوية للسياق العام.
ما يلي Python كيفية تحميل نموذج مستند إلى Transformer تم تدريبه مسبقًا وتشغيل الاستدلال:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
تتطور الأبحاث بسرعة لمعالجة التكلفة الحسابية العالية لـ ViTs. تقنيات مثل FlashAttention تجعل هذه النماذج أسرع و أكثر كفاءة في استخدام الذاكرة. علاوة على ذلك، أصبحت البنى الهجينة التي تجمع بين كفاءة CNNs واهتمام Transformers شائعة. بالنسبة للفرق التي تسعى إلى إدارة سير العمل المتقدم هذا، توفر Ultralytics بيئة موحدة لتعليق البيانات، وتدريب النماذج المعقدة عبر السحابة، ونشرها في نقاط نهاية متنوعة.