Vision Transformer (ViT)
استكشف قوة محولات الرؤية (ViT). تعرّف على كيفية إحداث الانتباه الذاتي وتقطيع الرموز ثورة في الرؤية الحاسوبية بعيداً عن الشبكات العصبية التلافيفية (CNNs) مع Ultralytics.
محول الرؤية (ViT) هو بنية تعلم عميق تكيّف آليات الانتباه الذاتي التي صُممت في الأصل لـ معالجة اللغات الطبيعية (NLP) لحل مهام الرؤية. على عكس الشبكة العصبية التلافيفية (CNN) التقليدية، التي تعالج الصور عبر تسلسل هرمي لشبكات البكسل المحلية، يعامل ViT الصورة كسلسلة من الرقع المنفصلة. تم تعميم هذا النهج من خلال الورقة البحثية البارزة "الصورة تساوي 16x16 كلمة"، والتي أثبتت أن بنى المحولات الصرفة يمكنها تحقيق أداء متطور في رؤية الحاسوب (CV) دون الاعتماد على طبقات التلافيف. من خلال الاستفادة من الانتباه العالمي، يمكن لـ ViTs التقاط التبعيات بعيدة المدى عبر الصورة بأكملها بدءاً من الطبقة الأولى.
Link to this sectionكيف تعمل محولات الرؤية#
الابتكار الجوهري في ViT هو الطريقة التي يهيكل بها بيانات الإدخال. لجعل الصورة متوافقة مع Transformer قياسي، يقوم النموذج بتفكيك المعلومات المرئية إلى سلسلة من المتجهات، مما يحاكي كيفية معالجة نموذج اللغة لجملة من الكلمات.
-
ترميز الرقع (Patch Tokenization): يتم تقسيم صورة الإدخال إلى شبكة من المربعات ذات الحجم الثابت، عادةً 16x16 بكسل. يتم تسطيح كل مربع إلى متجه، ليصبح عملياً رمزاً مرئياً.
-
الإسقاط الخطي (Linear Projection): تمر هذه الرقع المسطحة عبر طبقة خطية قابلة للتدريب لإنشاء تضمينات كثيفة. تقوم هذه الخطوة بتعيين قيم البكسل الخام إلى مساحة عالية الأبعاد يمكن للنموذج معالجتها.
-
ترميز الموضع (Positional Encoding): نظراً لأن البنية تعالج التسلسلات بالتوازي وتفتقر إلى فهم متأصل للترتيب أو المساحة، يتم إضافة ترميزات موضعية قابلة للتعلم إلى تضمينات الرقع. وهذا يسمح للنموذج بالاحتفاظ بمعلومات مكانية حول مكان انتماء كل رقعة في الصورة الأصلية.
-
آلية الانتباه الذاتي (Self-Attention Mechanism): تدخل السلسلة إلى مشفر Transformer، حيث يسمح الانتباه الذاتي لكل رقعة بالتفاعل مع كل رقعة أخرى في وقت واحد. وهذا يمكّن الشبكة من تعلم السياق العالمي، وفهم كيفية ارتباط بكسل في الزاوية العلوية اليسرى بآخر في الزاوية السفلية اليمنى.
-
رأس التصنيف (Classification Head): بالنسبة لمهام مثل تصنيف الصور، غالباً ما يتم إلحاق "رمز فئة" خاص ببداية السلسلة. تعمل حالة الإخراج النهائية لهذا الرمز كتمثيل مجمع للصورة، والذي يتم تغذيته بعد ذلك إلى مصنف، مثل الإدراك متعدد الطبقات (MLP).
Link to this sectionمحولات الرؤية مقابل CNNs#
على الرغم من أن كلاً من البنيتين تهدفان إلى فهم البيانات المرئية، إلا أنهما تختلفان بشكل كبير في فلسفتهما التشغيلية. تمتلك CNNs "تحيزاً استقرائياً" قوياً يُعرف بثبات الترجمة، مما يعني أنها تفترض ضمناً أن الميزات المحلية (مثل الحواف والقوام) مهمة بغض النظر عن موقعها. وهذا يجعل CNNs فعالة جداً في استخدام البيانات وتعمل بشكل جيد على مجموعات بيانات أصغر.
على العكس من ذلك، تمتلك محولات الرؤية تحيزاً أقل تجاه الصور. يجب عليها تعلم العلاقات المكانية من الصفر باستخدام كميات هائلة من بيانات التدريب، مثل مجموعات بيانات JFT-300M أو ImageNet الكاملة. وبينما يجعل هذا التدريب مكثفاً من الناحية الحسابية، فإنه يسمح لـ ViTs بالتوسع بشكل جيد جداً؛ فمع وجود بيانات كافية وقدرة حوسبة، يمكنها التفوق على CNNs من خلال التقاط هياكل عالمية معقدة قد تغفل عنها التلافيف المحلية.
Link to this sectionتطبيقات العالم الحقيقي#
إن القدرة على فهم السياق العالمي تجعل ViTs مفيدة بشكل خاص للبيئات المعقدة عالية المخاطر.
- تحليل الصور الطبية: في الذكاء الاصطناعي للرعاية الصحية، تُستخدم ViTs لتحليل الفحوصات عالية الدقة مثل تصوير الرنين المغناطيسي أو شرائح علم الأنسجة. على سبيل المثال، في اكتشاف الأورام، يمكن لـ ViT ربط الشذوذات النسيجية الدقيقة في الأنسجة بتغيرات هيكلية أوسع عبر الشريحة، مما يحدد الأنماط الخبيثة التي قد يغفل عنها المعالجة المحلية.
- صور الأقمار الصناعية والاستشعار عن بعد: تتفوق ViTs في تحليل صور الأقمار الصناعية حيث تمتد العلاقات بين الكائنات لمسافات طويلة. على سبيل المثال، يتطلب ربط موقع إزالة الغابات بطريق تسجيل بعيد فهم "الصورة الكبيرة" للمشهد، وهي مهمة يتفوق فيها الانتباه العالمي لـ ViT على مجال الاستقبال المحدود لـ CNNs القياسية.
Link to this sectionاستخدام المحولات مع Ultralytics#
تدعم مكتبة ultralytics البنيات القائمة على المحولات، وأبرزها RT-DETR (محول الكشف في الوقت الفعلي). بينما يُفضل غالباً YOLO26 الرائد لتوازنه بين السرعة والدقة على أجهزة الحافة، يوفر RT-DETR بديلاً قوياً للسيناريوهات التي تعطي الأولوية للسياق العالمي.
يوضح مثال Python التالي كيفية تحميل نموذج قائم على المحولات مدرب مسبقاً وتشغيل الاستدلال:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()Link to this sectionالنظرة المستقبلية#
يتطور البحث بسرعة لمعالجة التكلفة الحسابية العالية لـ ViTs. تقنيات مثل FlashAttention تجعل هذه النماذج أسرع وأكثر كفاءة في استخدام الذاكرة. علاوة على ذلك، أصبحت البنيات الهجينة التي تجمع بين كفاءة CNNs وانتباه المحولات شائعة. بالنسبة للفرق التي تتطلع إلى إدارة سير العمل المتقدم هذا، توفر منصة Ultralytics بيئة موحدة لتعليق البيانات، وتدريب النماذج المعقدة عبر السحابة، ونشرها على نقاط نهاية متنوعة.






