Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الدقة النصفية

اكتشف كيف تعمل الدقة النصفية (FP16) على تسريع الذكاء الاصطناعي من خلال الحساب الأسرع وتقليل استخدام الذاكرة ونشر النماذج بكفاءة.

نصف الدقة هو تنسيق رقم كمبيوتر ثنائي عائم ثنائي الفاصلة العائمة يشغل 16 بت في ذاكرة الكمبيوتر، ويشار إليه عادةً يشار إليها عادةً ب FP16. في مجال التعلم العميق، يعمل هذا التنسيق كبديل قوي بديلاً قوياً للتنسيق القياسي أحادي الدقة 32 بت (FP32) المستخدم تقليدياً في العمليات الحسابية العددية. من خلال تقليل عدد البتات المطلوبة لتمثيل كل رقم، يقلل نصف الدقة بشكل كبير من عرض النطاق الترددي ومتطلبات التخزين ل أوزان الن ماذج والتفعيلات. تسمح هذه الكفاءة للباحثين والمهندسين بتدريب شبكات عصبية أكبر أو نشر نماذج على أجهزة ذات بموارد محدودة دون المساس بشكل كبير دقة التنبؤات.

ميكانيكا الدقة النصفية

يُعرّف معيار IEEE 754 بنية أرقام الفاصلة العائمة حيث يخصص FP16 بت واحد للإشارة، و5 بتات للأس، و10 بتات للكسر (مانتيسا). يتناقض هذا التمثيل المضغوط مع FP32، الذي يستخدم 8 بتات للأس و23 بت للكسر. الميزة الأساسية الميزة الأساسية لاستخدام FP16 في الرؤية الحاسوبية ومهام الذكاء الاصطناعي الأخرى هي تسريع العمليات الحسابية. مسرعات الأجهزة الحديثة، مثل NVIDIA Tensor Cores، تم تصميمها خصيصًا لإجراء عمليات ضرب المصفوفات بنصف دقة بسرعات أعلى بكثير من العمليات أحادية الدقة.

ومع ذلك، فإن انخفاض عدد البتات يعني نطاقًا ديناميكيًا أصغر ودقة أقل. يمكن أن يؤدي ذلك إلى عدم الاستقرار العددي، مثل تلاشي التدرجات، حيث تصبح الأرقام أصغر من أن يتمكن الكمبيوتر من تمثيلها بشكل واضح من الصفر. للتخفيف من ذلك، غالبًا ما يستخدم المطورون استراتيجيات الدقة المختلطة، والتي تقوم ديناميكيًا بين FP16 و FP32 أثناء التدريب للحفاظ على الاستقرار مع الاستفادة من سرعة الدقة النصفية.

تطبيقات العالم الحقيقي في الذكاء الاصطناعي

تُعد الدقة النصفية منتشرة في كل مكان في عمليات سير عمل الذكاء الاصطناعي الحديثة، خاصةً في السيناريوهات التي تتطلب إنتاجية عالية أو زمن استجابة منخفض. منخفضة.

  1. نشر الذكاء الاصطناعي المتطور: عند نشر النماذج على أجهزة الذكاء الاصطناعي المتطورة مثل الطائرات بدون طيار أو الكاميرات الذكية أو والهواتف المحمولة، فإن الذاكرة وعمر البطارية يمثلان قيودًا متميزة. تحويل نموذج مثل YOLO11 إلى FP16 يقلل من حجم النموذج بحوالي 50%، مما يسمح له بالتناسب مع ذاكرة الوصول العشوائي المحدودة للأنظمة المدمجة مثل مثل NVIDIA Jetson أو أو Raspberry Pi. هذا يسهل سرعة أسرع، مما يتيح الاستجابة في الوقت الحقيقي الاستجابة في الوقت الحقيقي في تطبيقات مثل الملاحة المستقلة.
  2. تدريب النماذج على نطاق واسع: تدريب البنى الضخمة، مثل نماذج اللغات الكبيرة (LLMs) أو نماذج رؤية الأساس، تتطلب معالجة تيرابايت من البيانات. يسمح استخدام FP16 لمراكز البيانات بمضاعفة حجم الدفعة التي تناسب ذاكرةGPU مما يقلل بشكل كبير من دورات التدريب بشكل كبير. هذه الكفاءة أمر بالغ الأهمية للتجريب السريع والتكرار على الجيل التالي من القادم مثل YOLO26 القادم.

تطبيق الدقة النصفية مع Ultralytics

أطر عمل مثل PyTorch والمكتبات مثل ultralytics تجعل من السهل الاستفادة من نصف الدقة. يوضح المثال التالي كيفية تصدير نموذج YOLO11 إلى TensorRT تنسيق باستخدام FP16، وهي ممارسة شائعة لتحسين سرعة الاستدلال على وحدات معالجة الرسومات NVIDIA .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT engine with half-precision enabled
# The 'half=True' argument ensures weights are converted to FP16
model.export(format="engine", half=True)

التمييز بين المصطلحات ذات الصلة

يتطلب فهم الدقة النصفية تمييزها عن تقنيات التحسين ذات الصلة الموجودة في المسرد:

  • الدقة النصفية مقابل الدقة المختلطة: في حين أن الدقة النصفية تشير تحديدًا إلى تنسيق بيانات 16 بت، فإن الدقة المختلطة هي تقنية تدريب تجمع بين FP16 للحسابات الثقيلة و FP32 للتراكمات الحساسة (مثل تحديثات الوزن) لمنع فقدان المعلومات.
  • نصف الدقة مقابل التكميم النموذجي: تحافظ الدقة النصفية على تمثيل الفاصلة العائمة، مع تقليل عرض البتات فقط. التحويل الكمي عادةً يحول الأوزان إلى تنسيقات صحيحة، مثل INT8 (الأعداد الصحيحة 8 بت)، مما يوفر ضغطًا وسرعة أكبر ولكنه يتطلب تقنيات معايرة دقيقة مثل التدريب الواعي بالتقدير الكمي (QAT) لتجنب تدهور الدقة.
  • نصف الدقة مقابل Bfloat16: Bfloat16 (النقطة العائمة الدماغية) هو تنسيق بديل تنسيق 16 بت يُستخدم غالبًا في وحدات المعالجة ثلاثية الأبعاد. وهو يحافظ على الأس 8 بت من FP32 للحفاظ على النطاق الديناميكي ولكنه يضحي بالدقة في الكسر، مما يجعله بشكل عام أكثر استقرارًا في التدريب من صيغة IEEE FP16 القياسية دون الحاجة إلى قياس الخسارة.

من خلال إتقان هذه التنسيقات، يمكن للمطورين التأكد من أن أن تكون استراتيجيات نشر النماذج الخاصة بهم مناسبة الأجهزة ومتطلبات الأداء الخاصة بمشاريعهم.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن