Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

جذب الانتباه

اكتشف كيف تعمل تقنية Ring Attention على توسيع نطاق محولات «Transformer» لتشمل تسلسلات ذات أطوال لا نهائية. تعرف على كيفية تعزيز هذه التقنية لأجهزة التعلم اللغوي الضخمة (LLMs) ومحولات الرؤية (Vision Transformers) في المهام التي تتطلب معالجة كميات هائلة من البيانات.

تعد تقنية "Ring Attention" تقنية متقدمة في مجال التعلم الآلي (ML) مصممة لتوسيع نطاق نافذة السياق في بنى "Transformer " لتشمل أطوال تسلسلات لا نهائية تقريبًا. من خلال توزيع الحسابات المعقدة للانتباه عبر مجموعة من وحدات معالجة الرسومات (GPUs) المتصلة في شكل حلقة ، فإنها تدمج بشكل فعال بين الاتصال والحساب. يتيح هذا الاختراق المعماري لنماذج اللغة الكبيرة (LLMs) و محولات الرؤية (ViT) معالجة مدخلات ضخمة —مثل كتب كاملة أو ساعات من الفيديو المتواصل—تتجاوز بكثير سعة ذاكرة أي جهاز فردي.

التغلب على عائق نافذة السياق

في آليات الانتباه الذاتي القياسية، يتناسب استهلاك الذاكرة تناسبًا تربيعيًا مع طول تسلسل المدخلات. وهذا يشكل عقبة كبيرة أمام نماذج التعلم العميق (DL) التي تحاول تحليل البيانات الطويلة. لمعرفة المزيد عن كيفية تعامل مجتمع الذكاء الاصطناعي مع هذه المشكلة، يمكنك الاطلاع على أبحاث مركز بيركلي للذكاء الاصطناعي (Berkeley AI Research) حول نماذج السياق الكبير.

تحل Ring Attention هذه العقبة التربيعية عن طريق تقسيم الاستعلامات والمفاتيح والقيم إلى كتل أصغر. تقوم كل GPU الشبكة الموزعة بحساب كتلة ما، ثم تمرر المفاتيح والقيم إلى الجهاز المجاور لها في الحلقة. ويستمر هذا النقل الدوري حتى يتم حساب آلية الانتباه بالكامل. ويتيح استخدام أدوات مثل حزمة الاتصالاتPyTorch للمطورين بناء مسارات تدريب متطورة تشمل أجهزة متعددة.

الانتباه الناتج عن الرنين مقابل الانتباه الناتج عن الوميض

على الرغم من أن كلا التقنيتين تعملان على تحسين استخدام الذاكرة، إلا أنهما تعملان على مستويات مختلفة. تعد «Flash Attention» خوارزمية تراعي خصائص الأجهزة وتعمل على تقليل عمليات القراءة والكتابة المكلفة على ذاكرة SRAM GPU الواحدة. وعلى العكس من ذلك، تعد «Ring Attention» خوارزمية موزعة تركز على توسيع نطاق الحساب عبر وحدات معالجة رسومات متعددة. في أحدث سير عمل الذكاء الاصطناعي التوليدي، غالبًا ما يتم الجمع بين هاتين التقنيتين لتحقيق كفاءة الأجهزة المحلية وقابلية التوسع الهائلة عبر أجهزة متعددة، كما هو مفصل في الورقة البحثية الأصلية لـ Ring Attention على arXiv.

تطبيقات واقعية

إن القدرة على معالجة ملايين الرموز في وقت واحد تفتح الباب أمام إمكانات هائلة في مجال الذكاء الاصطناعي الحديث:

  1. تحليل شامل للوثائق وقاعدة الكود: تتيح Ring Attention للنماذج استيعاب ملايين الأسطر من الكود أو المكتبات القانونية المعقدة في موجه واحد. ويؤدي ذلك إلى تحسين كبير في أداء الأنظمة التي تعتمد على تقنية "الإنشاء المعزز بالاسترجاع" (RAG)، مما يتيح لها توليف السياق دون حذف المعلومات الأساسية. ويُعد هذا المفهوم أساسيًا لنماذج السياق الضخمة مثل بنية GeminiGoogle.
  2. فهم الفيديو الموسع: في مجال الرؤية الحاسوبية (CV)، تتطلب معالجة تسلسلات الفيديو عالية الدقة عادةً إجراء عملية تخفيض دقة عالية. تتيح تقنية Ring Attention للنماذج تحليل تدفقات الفيديو غير المضغوطة التي تصل مدتها إلى ساعة. وهذا يعزز التعرف على الحركات والتتبع المستمر للأجسام في أنظمة الأمن والقيادة الذاتية، مع الحفاظ على الوعي الزمني على مدى فترات طويلة.

معالجة تسلسلات الصور

في حين تتعامل نماذج الانتباه الموزعة الضخمة مع سياقات لا حصر لها، فإن التطبيقات العملية التي تعتمد على الحافة تتطلب بنى هندسية مُحسَّنة للغاية. بالنسبة لعمليات الاستدلال في الوقت الفعلي ومعالجة التسلسلات المرئية، يوفر Ultralytics أداءً رائدًا في القطاع دون الحاجة إلى العبء الحسابي الهائل الذي تتطلبه المحولات القائمة على الانتباه بشكل كامل.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

عند بناء وتوسيع نطاق حلول الكشف عن الكائنات وتجزئة الصور المعقدة هذه، تُعد إدارة تنسيق الأجهزة أمراً بالغ الأهمية. تعمل Ultralytics على تبسيط هذه العملية بالكامل، حيث توفر أدوات للتدريب السلس عبر السحابة، والتعليق التلقائي على مجموعات البيانات، ونشر النماذج بنقرة واحدة عبر بيئات أجهزة متعددة. ويضمن الاستفادة من هذه المنصات انتقال تقنيات التوسع المتطورة بسلاسة من مرحلة البحث إلى مسارات عمل الذكاء الاصطناعي القابلة للتوسع والجاهزة للإنتاج.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة