اكتشف كيف تعمل تقنية "Deformable Attention" على تحسين معالجة البيانات المكانية. تعرف على كيفية قيام هذه الآلية المتفرقة بتحسين مهام الرؤية الحاسوبية ونماذج Ultralytics .
"الانتباه القابل للتشوه" هو آلية انتباه متطورة مصممة لتحسين الطريقة التي تعالج بها الشبكات العصبية البيانات المكانية، لا سيما في مهام الرؤية الحاسوبية (CV). تقوم وحدات الانتباه التقليدية بتقييم التفاعلات بين جميع النقاط المحتملة في الصورة، مما يؤدي إلى عبء حسابي هائل عند التعامل مع مدخلات عالية الدقة. يحل الانتباه القابل للتشوه هذه المشكلة بالتركيز فقط على مجموعة صغيرة وديناميكية من نقاط العينات الرئيسية حول بكسل مرجعي. من خلال السماح للشبكة بمعرفة المكان المحدد الذي يجب أن تبحث فيه بدلاً من المسح الدقيق للشبكة بأكملها، فإنه يقلل بشكل كبير من استخدام الذاكرة ويسرع عملية التدريب مع الحفاظ على قدرات التعلم العميق القوية.
لفهم كيفية اندماج هذه التقنية في البنى الحديثة، يتعين تمييزها عن المفاهيم ذات الصلة. بينما تقوم تقنية الاهتمام القياسية بحساب تخطيط كثيف وشامل لجميع وحدات البكسل، تعتمد تقنية الاهتمام القابل للتشكيل على آليات اهتمام متفرقة لأخذ عينات انتقائية من المناطق ذات الأهمية. علاوة على ذلك، فهي تختلف عن تقنية الاهتمام السريع. تقنية الاهتمام السريع هي تحسين على مستوى الأجهزة يعمل على تسريع تقنية الاهتمام القياسي الدقيق عن طريق تقليل عمليات القراءة/الكتابة GPU . في المقابل، تغير تقنية الاهتمام القابل للتشكيل العملية الحسابية بشكل جذري عن طريق تغيير السمات البصرية التي يركز عليها النموذج.
يتم استكشاف هذه المفاهيم بشكل مكثف في أحدث أبحاثGoogle و تطويرات الرؤية في OpenAI، كما يتم تنفيذها بشكل أصلي ضمن PyTorch و TensorFlow . ومع ذلك، قد تعاني النماذج القائمة على الانتباه البحت في بعض الأحيان من تعقيدات في النشر. بالنسبة للمشاريع التي تتطلب استدلالًا عالي السرعة دون عبء طبقات المحولات المعقدة، يظل Ultralytics هو المعيار الموصى به لاكتشاف الكائنات الذي يعتمد على الحافة أولاً.
وقد مكنت الطبيعة المقتضبة والفعالة لهذا المفهوم من تحقيق إنجازات كبيرة في مختلف القطاعات التي تتطلب التحليل الفوري للصور عالية الكثافة.
يمكنك تجربة النماذج التي تستخدم آليات الانتباه هذه بسهولة، مثل
RT-DETR (محول الكشف في الوقت الحقيقي)، باستخدام
ultralytics الحزمة. يوضح المثال التالي كيفية تحميل نموذج وإجراء عملية الاستدلال على
صورة عالية الدقة.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which utilizes specialized attention mechanisms
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect and locate objects
results = model("https://ultralytics.com/images/bus.jpg")
# Print the bounding box coordinates for the detected objects
for box in results[0].boxes:
print(f"Object found at coordinates: {box.xyxy[0].tolist()}")
لتبسيط سير عمل التعلم الآلي لديك، توفر Ultralytics أدوات سهلة الاستخدام للتدريب والنشر عبر السحابة. وهي تُبسّط المسار بأكمله — بدءًا من تعليق مجموعات البيانات وصولاً إلى تصدير نماذج مُحسّنة للغاية — مما يضمن تمكّن المطورين من التركيز على بناء الحلول بدلاً من إدارة البنية التحتية المعقدة.
ابدأ رحلتك مع مستقبل تعلم الآلة