اكتشف كيف تعمل تقنية Ring Attention على توسيع نطاق محولات «Transformer» لتشمل تسلسلات ذات أطوال لا نهائية. تعرف على كيفية تعزيز هذه التقنية لأجهزة التعلم اللغوي الضخمة (LLMs) ومحولات الرؤية (Vision Transformers) في المهام التي تتطلب معالجة كميات هائلة من البيانات.
تعد تقنية "Ring Attention" تقنية متقدمة في مجال التعلم الآلي (ML) مصممة لتوسيع نطاق نافذة السياق في بنى "Transformer " لتشمل أطوال تسلسلات لا نهائية تقريبًا. من خلال توزيع الحسابات المعقدة للانتباه عبر مجموعة من وحدات معالجة الرسومات (GPUs) المتصلة في شكل حلقة ، فإنها تدمج بشكل فعال بين الاتصال والحساب. يتيح هذا الاختراق المعماري لنماذج اللغة الكبيرة (LLMs) و محولات الرؤية (ViT) معالجة مدخلات ضخمة —مثل كتب كاملة أو ساعات من الفيديو المتواصل—تتجاوز بكثير سعة ذاكرة أي جهاز فردي.
في آليات الانتباه الذاتي القياسية، يتناسب استهلاك الذاكرة تناسبًا تربيعيًا مع طول تسلسل المدخلات. وهذا يشكل عقبة كبيرة أمام نماذج التعلم العميق (DL) التي تحاول تحليل البيانات الطويلة. لمعرفة المزيد عن كيفية تعامل مجتمع الذكاء الاصطناعي مع هذه المشكلة، يمكنك الاطلاع على أبحاث مركز بيركلي للذكاء الاصطناعي (Berkeley AI Research) حول نماذج السياق الكبير.
تحل Ring Attention هذه العقبة التربيعية عن طريق تقسيم الاستعلامات والمفاتيح والقيم إلى كتل أصغر. تقوم كل GPU الشبكة الموزعة بحساب كتلة ما، ثم تمرر المفاتيح والقيم إلى الجهاز المجاور لها في الحلقة. ويستمر هذا النقل الدوري حتى يتم حساب آلية الانتباه بالكامل. ويتيح استخدام أدوات مثل حزمة الاتصالاتPyTorch للمطورين بناء مسارات تدريب متطورة تشمل أجهزة متعددة.
على الرغم من أن كلا التقنيتين تعملان على تحسين استخدام الذاكرة، إلا أنهما تعملان على مستويات مختلفة. تعد «Flash Attention» خوارزمية تراعي خصائص الأجهزة وتعمل على تقليل عمليات القراءة والكتابة المكلفة على ذاكرة SRAM GPU الواحدة. وعلى العكس من ذلك، تعد «Ring Attention» خوارزمية موزعة تركز على توسيع نطاق الحساب عبر وحدات معالجة رسومات متعددة. في أحدث سير عمل الذكاء الاصطناعي التوليدي، غالبًا ما يتم الجمع بين هاتين التقنيتين لتحقيق كفاءة الأجهزة المحلية وقابلية التوسع الهائلة عبر أجهزة متعددة، كما هو مفصل في الورقة البحثية الأصلية لـ Ring Attention على arXiv.
إن القدرة على معالجة ملايين الرموز في وقت واحد تفتح الباب أمام إمكانات هائلة في مجال الذكاء الاصطناعي الحديث:
في حين تتعامل نماذج الانتباه الموزعة الضخمة مع سياقات لا حصر لها، فإن التطبيقات العملية التي تعتمد على الحافة تتطلب بنى هندسية مُحسَّنة للغاية. بالنسبة لعمليات الاستدلال في الوقت الفعلي ومعالجة التسلسلات المرئية، يوفر Ultralytics أداءً رائدًا في القطاع دون الحاجة إلى العبء الحسابي الهائل الذي تتطلبه المحولات القائمة على الانتباه بشكل كامل.
from ultralytics import YOLO
# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")
# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)
# Iterate through the stream to process temporal tracking data
for frame_result in results:
print(f"Tracked {len(frame_result.boxes)} objects in current frame.")
عند بناء وتوسيع نطاق حلول الكشف عن الكائنات وتجزئة الصور المعقدة هذه، تُعد إدارة تنسيق الأجهزة أمراً بالغ الأهمية. تعمل Ultralytics على تبسيط هذه العملية بالكامل، حيث توفر أدوات للتدريب السلس عبر السحابة، والتعليق التلقائي على مجموعات البيانات، ونشر النماذج بنقرة واحدة عبر بيئات أجهزة متعددة. ويضمن الاستفادة من هذه المنصات انتقال تقنيات التوسع المتطورة بسلاسة من مرحلة البحث إلى مسارات عمل الذكاء الاصطناعي القابلة للتوسع والجاهزة للإنتاج.
ابدأ رحلتك مع مستقبل تعلم الآلة