تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

PagedAttention

تعرف على كيفية قيام PagedAttention بتحسين إدارة ذاكرة نماذج اللغات الكبيرة (LLM) وكفاءة ذاكرة التخزين المؤقت KV. استكشف تأثيرها على الإنتاجية وكيف تقارن بأداء Ultralytics YOLO26.

PagedAttention هي خوارزمية إدارة ذاكرة عالية الكفاءة مصممة لتحسين سرعة الاستنتاج والإنتاجية لنماذج اللغات الكبيرة (LLMs). مستوحاة من مفاهيم الذاكرة الافتراضية والتقسيم إلى صفحات (paging) في أنظمة التشغيل التقليدية، تعالج هذه التقنية الاستهلاك الهائل للذاكرة المرتبط بذاكرة التخزين المؤقت للمفاتيح والقيم (يشار إليها غالبًا باسم KV cache) أثناء توليد النصوص. من خلال تقسيم كتل الذاكرة المتصلة المطلوبة لذاكرة التخزين المؤقت إلى "صفحات" أصغر وغير متصلة، تقضي PagedAttention فعلياً على تجزئة الذاكرة الداخلية والخارجية. وهذا يسمح لخوادم الذكاء الاصطناعي بمعالجة عدد أكبر بكثير من الطلبات في وقت واحد، مما يزيد من استخدام GPU إلى أقصى حد.

Link to this sectionPagedAttention مقابل Flash Attention#

على الرغم من أن كلتا التقنيتين تعملان على تحسين أداء الشبكات العصبية، إلا أنهما تستهدفان اختناقات مختلفة. Flash Attention هي عملية تحسين على مستوى الحوسبة تعمل على تسريع آلية الانتباه نفسها من خلال تقليل عمليات قراءة وكتابة الذاكرة البطيئة عبر تسلسل هرمي GPU. في المقابل، PagedAttention هي استراتيجية لتخصيص الذاكرة. فهي تركز بالكامل على كيفية هيكلة وتخزين الذاكرة الخاصة بـ نافذة السياق، مما يسمح بالتحجيم الديناميكي دون تخصيص مسبق لكتل ذاكرة كبيرة ومهدرة.

Link to this sectionتطبيقات العالم الحقيقي#

لقد أحدثت كفاءة الذاكرة التي وفرتها PagedAttention تحولاً في كيفية نشر النماذج التوليدية واسعة النطاق في بيئات الإنتاج.

  1. تقديم واجهة برمجة تطبيقات (API) ذات إنتاجية عالية: تستخدم أنظمة الإنتاج التي تخدم نماذج تشبه GPT-4 تقنية PagedAttention عبر أطر عمل مثل vLLM. من خلال مشاركة كتل الذاكرة عبر طلبات المستخدمين المختلفة، يمكن لمزودي الخدمة خدمة ما يصل إلى أربعة أضعاف عدد المستخدمين على نفس الأجهزة، مما يقلل بشكل كبير من تكلفة تشغيل خدمات الذكاء الاصطناعي المستندة إلى السحابة.

  2. استراتيجيات فك التشفير المعقدة: عندما يقوم نموذج الذكاء الاصطناعي بتوليد استجابات متعددة محتملة في وقت واحد (كما هو الحال في البحث الشعاعي beam search أو أخذ العينات المتوازي)، تسمح PagedAttention لهذه التسلسلات المتوازية بمشاركة نفس صفحات الذاكرة الأساسية بأمان. وهذا يمنع النظام من تكرار الذاكرة بشكل زائد، مما يجعل مهام الاستدلال المعقدة أسرع بشكل ملحوظ.

Link to this sectionكفاءة الذاكرة في الرؤية الحاسوبية#

بينما يتم استخدام PagedAttention بشكل أساسي في معالجة اللغات الطبيعية، فإن المبدأ الأساسي للتحسين الصارم للذاكرة يعد أمراً بالغ الأهمية بنفس القدر في الرؤية الحاسوبية (CV). عند نشر النماذج على أجهزة الحافة ذات الموارد المحدودة، يعد تجنب تضخم الذاكرة أمراً ضرورياً. تحقق Ultralytics YOLO26 كفاءة الاستنتاج في الوقت الفعلي بشكل أصلي، متجاوزة الحاجة إلى إدارة ثقيلة لذاكرة التخزين المؤقت من خلال استخدام بنية متكاملة خالية من NMS.

للمطورين الذين يتطلعون إلى التعامل بسلاسة مع متطلبات الذاكرة والتصدير الخاصة بخطوط أنابيب اكتشاف الكائنات، توفر منصة Ultralytics أدوات نشر مؤتمتة تقوم بحزم النماذج لتحقيق التنفيذ الأمثل على الأجهزة.

Link to this sectionمثال برمجي#

تعمل PagedAttention تحت السطح في أطر عمل الخدمة، حيث تستبدل وظائف الانتباه القياسية بنواة Cuda محسنة. فيما يلي مثال مفاهيمي يوضح كيف يمكن للمرء تحديد الانتباه القياسي في PyTorch، وهي الأنظمة التي تقوم vLLM باعتراضها وتحسينها تلقائياً باستخدام التقسيم إلى صفحات أثناء نشر النموذج.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

من خلال الاستفادة من استراتيجيات تخصيص الذاكرة المتقدمة، تواصل صناعة الذكاء الاصطناعي دفع حدود ما هو ممكن، مما يضمن إمكانية توسيع نطاق النماذج التأسيسية الضخمة والوصول إليها بكفاءة في جميع أنحاء العالم.

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة