اكتشف كيف تعمل "مستودعات الانتباه" على تثبيت نماذج اللغة الكبيرة (LLMs) ونماذج اللغة الضخمة (VLMs) من أجل توليد تسلسلات لا نهائية. تعلم كيفية تحسين استخدام الذاكرة ونشر أنظمة ذكاء اصطناعي مستقرة باستخدام Ultralytics .
تُعد «مصارف الانتباه» ظاهرة حاسمة تم اكتشافها في بنية نماذج اللغة الكبيرة الحديثة (LLMs) و نماذج الرؤية واللغة (VLMs) والتي تضمن الاستقرار أثناء التوليد المستمر للنصوص الطويلة أو البيانات. في آلية الانتباه، تقوم الشبكات العصبية بتخصيص «أوزان» ديناميكيًا لأجزاء مختلفة من المدخلات. لاحظ الباحثون أن النماذج التلقائية التراجعية تفرغ بطبيعتها كمية هائلة من درجات الانتباه الزائدة على الرموز القليلة الأولى من التسلسل، بغض النظر عن معناها الدلالي الفعلي. تعمل هذه الرموز الأولية كـ "مصرف انتباه"، مما يوفر مرساة رياضية تمنع درجات انتباه النموذج من الانهيار. من خلال الاحتفاظ الدائم بهذه الرموز المستنزفة في ذاكرة التخزين المؤقتة KV للنموذج، يمكن للمطورين تمكين إنشاء تسلسلات لا نهائية دون الإضرار بالدقة أو التعطل بسبب حدود الذاكرة.
تنبع الحاجة إلى "حوض الانتباه" من عملية Softmax المستخدمة في نموذج "ترانسفورمرز". ونظرًا لأن مجموع درجات الانتباه يجب أن يساوي دائمًا 1، فإن النموذج يحتاج إلى مكان لتخصيص الانتباه الزائد عند معالجة البيانات شديدة التحديد المكاني. وبطبيعة الحال، فإن الرموز الأولى في المطالبة تستوعب هذا الفائض.
تاريخياً، عند إنشاء تسلسلات طويلة جداً، كان المهندسون يستخدمون تقنيات "النوافذ" التي كانت تُزيل الرموز الأقدم من الذاكرة. ومع ذلك، كان حذف الرموز الأولية يؤدي إلى انهيار فوري في الأداء. تحتفظ التطبيقات الحديثة، مثل StreamingLLM، صراحةً بهذه الرموز الأولية جنبًا إلى جنب مع الرموز الأحدث. يتم استكشاف هذا النهج المُحسّن للغاية لإدارة الذاكرة بشكل نشط في تطويرات الرؤية في OpenAI و أبحاثGoogle ، وهو مدعوم أصلاً ضمن PyTorch .
لفهم كيفية قيام نماذج الذكاء الاصطناعي بتحسين السياق بشكل كامل، من المفيد مقارنة «مستقبلات الانتباه» باستراتيجيات الذاكرة والأجهزة الأخرى:
أدى اكتشاف "مستودعات الانتباه" إلى فتح الباب أمام قدرات معالجة مستمرة وعالية الكفاءة في مختلف القطاعات.
في حين أن شبكات السينك تركز في المقام الأول على تحسين النماذج التوليدية الضخمة، فإن تطبيق حلقات استدلال فعالة ومراعية لاستهلاك الذاكرة يعد أمرًا بالغ الأهمية بشكل عام في مجال الرؤية الحاسوبية (CV). وعند معالجة تدفقات الفيديو المستمرة باستخدام Ultralytics ، فإن الاستفادة من مولدات Python تضمن استقرار الذاكرة على المدى الطويل، وهو ما يشبه إدارة نافذة سياق محلية.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")
# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)
# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
print(f"Detected {len(frame_result.boxes)} objects in the current frame.")
يتطلب توسيع نطاق مسارات العمل هذه الفعالة والمستمرة لاكتشاف الكائنات للاستخدام المؤسسي أدوات إدارة قوية. يمكن للمطورين الاستفادة من Ultralytics لتبسيط نشر النماذج وإدارة مجموعات البيانات تلقائيًا، مما يتيح للفرق إنشاء تطبيقات رؤية مستقرة وطويلة الأمد بسهولة.

ابدأ رحلتك مع مستقبل تعلم الآلة