Swin Transformer
اكتشف كيف تستخدم بنية Swin Transformer النوافذ المنزلقة من أجل رؤية حاسوبية فعالة، واستكشف مسارات العمل على منصة Ultralytics.
تم تقديم هذه البنية في ورقة بحثية بارزة عام 2021 من قبل باحثين في مايكروسوفت بعنوان "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"، وتعمل هذه البنية الخاصة بـ التعلم العميق (DL) على تكييف آلية الانتباه (attention mechanism) للتعامل مع تعقيدات البيانات المرئية عالية الدقة. على عكس نماذج معالجة اللغات الطبيعية (NLP) التي تعالج رموز النصوص ذات الطول الموحد، تدرك هذه البنية أن العناصر المرئية تختلف بشكل كبير في الحجم. ومن خلال بناء تمثيل هرمي واستخدام تقنية نوافذ فريدة، فإنها تحقق تعقيداً حاسوبياً خطياً بالنسبة لحجم الصورة، مما يجعلها عموداً فقرياً فعالاً للغاية لمجموعة متنوعة من مهام رؤية الحاسوب (CV).
Link to this sectionكيف تعمل النوافذ المتحركة والتصميم الهرمي#
يكمن الابتكار الأساسي في كيفية قيام النموذج بهيكلة استخراج الميزات (feature extraction). يبدأ الأمر بتقسيم الصورة المدخلة إلى رقع صغيرة غير متداخلة. ومع ذلك، وبخلاف النماذج السابقة، فإنه يقوم بدمج هذه الرقع المجاورة تدريجياً في مناطق أكبر في الطبقات العميقة. يسمح هذا النهج الهرمي للشبكة باستخراج خرائط ميزات (feature maps) غنية تمثل السياق العالمي بمقاييس مختلفة، بدءاً من التفاصيل المرئية الدقيقة وصولاً إلى الكائنات الكبيرة.
للحفاظ على الكفاءة الحسابية، يتم حساب الانتباه الذاتي فقط ضمن نوافذ محلية معزولة بدلاً من حسابها عبر الصورة بأكملها. ولضمان تدفق المعلومات عبر هذه الحدود، يتم "تحريك" النوافذ بين الطبقات المتعاقبة. يعمل مخطط النوافذ المتحركة هذا على ربط المناطق المستقلة بفعالية، مما يوفر تسلسلات هرمية مكانية متعددة المقاييس شاملة دون العبء الحسابي الثقيل المرتبط بالانتباه العالمي.
Link to this sectionSwin Transformer مقابل محول الرؤية (ViT)#
عند مقارنة البنيات الحديثة، من المهم تمييز هذا النموذج عن محول الرؤية القياسي (ViT). يتعامل ViT الأصلي مع الصور كسلسلة من الرقع ذات الحجم الثابت ويحسب الانتباه العالمي عبرها جميعاً في وقت واحد. وعلى الرغم من دقته العالية، إلا أن هذا يؤدي إلى تعقيد حاسوبي تربيعي، مما يعني أن وقت المعالجة ومتطلبات الذاكرة ترتفع بشكل حاد مع زيادة دقة الصورة.
في المقابل، يحافظ التصميم الهرمي والقائم على النوافذ لبنية Swin على خطية التعقيد. وهذا يجعله أكثر عملية بكثير لمهام التنبؤ الكثيفة التي تتطلب مدخلات ومخرجات عالية الدقة. ونتيجة لذلك، فإنه يحقق نتائج متطورة على معايير مثل مجموعة بيانات COCO test-dev لمهام اكتشاف الكائنات (object detection) متعددة المقاييس، ومجموعة بيانات التجزئة الدلالية ADE20K لمهام تجزئة الصور (image segmentation) الدقيقة.
Link to this sectionالتطبيقات الواقعية في الذكاء الاصطناعي الحديث#
نظراً لمرونته وكفاءته، تم تكييف التنفيذ الرسمي لـ مستودع GitHub الخاص بـ Microsoft Research عبر صناعات معقدة وعالية المخاطر.
- تحليل الصور الطبية: في البيئات السريرية، تستفيد شبكات مثل Swin-Unet من هذه البنية في مسوحات التصوير بالرنين المغناطيسي ثلاثية الأبعاد وتحليل الأنسجة المرضية عالية الدقة. تساعد قدرة النموذج على الاحتفاظ بتسلسلات هرمية مكانية كثيفة في تحديد التشوهات الدقيقة مثل الأورام في مراحلها المبكرة. يمكنك قراءة المزيد حول الإنجازات الأخيرة في أبحاث التصوير الطبي.
- تحليل صور الأقمار الصناعية: بالنسبة لـ المراقبة البيئية والاستشعار عن بعد، يعد التقاط السياق الجغرافي واسع النطاق أمراً بالغ الأهمية. تعمل البنية الهرمية على معالجة مجموعات البيانات الجوية الضخمة بكفاءة لتتبع إزالة الغابات، والتخطيط الحضري، ومراقبة صحة المحاصيل.
Link to this sectionالتكامل مع PyTorch وUltralytics#
بالنسبة للمطورين الذين يبنون شبكات عصبية مخصصة، فإن تطبيق هذه البنية مباشر باستخدام وثائق PyTorch الرسمية. تتضمن مكتبة torchvision إصدارات مدربة مسبقاً، مثل متغير Tiny خفيف الوزن، والذي تم تحسينه على ImageNet.
import torch
from torchvision.models import Swin_T_Weights, swin_t
# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()
# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)
# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")بينما توفر البنيات الأساسية المعتمدة على المحولات تمثيلاً ممتازاً متعدد المقاييس، غالباً ما تتطلب التطبيقات الحديثة تحسينات شاملة من النهاية إلى النهاية لـ أجهزة الذكاء الاصطناعي الطرفية. على سبيل المثال، يوفر Ultralytics YOLO26 بنية شاملة من النهاية إلى النهاية تكون أصغر، وأسرع، وأكثر دقة بشكل افتراضي، مما يجعله متفوقاً في بيئات الحافة اللحظية. سواء كنت تستخدم بنيات تعتمد بكثافة على المحولات أو نماذج التلافيف السريعة، يمكن للمطورين إدارة سير عملهم بالكامل—من وضع علامات البيانات إلى التدريب—عبر منصة Ultralytics. تجعل سلسلة أدوات السحابة الشاملة هذه من نشر النماذج (model deployment) ومراقبة النماذج (model monitoring) المستمرة أمراً بسيطاً وفعالاً.






