QLoRA

اكتشف كيف تُمكّن تقنية QLoRA (التكيف منخفض الرتبة المُكمَّم) من الضبط الدقيق الفعال لنماذج اللغة الكبيرة (LLM) على وحدات معالجة الرسومات (GPU) الاستهلاكية باستخدام التكميم بـ 4 بت لتوفير ذاكرة GPU.

تُعد QLoRA (Quantized Low-Rank Adaptation) تقنية تحسين متقدمة تُستخدم في التعلم العميق ومصممة لجعل الضبط الدقيق لـ النماذج اللغوية الكبيرة (LLMs) الضخمة عالية الكفاءة. طُرحت هذه التقنية لأول مرة في ورقة بحثية واسعة الانتشار على arXiv، وهي تقلل بشكل كبير من متطلبات ذاكرة GPU اللازمة لتحديث النماذج التي تحتوي على مليارات المعاملات.

من خلال الاستفادة من تكميم النموذج القوي وصولاً إلى دقة 4-بت، يمكن للمطورين الآن تحسين النماذج التأسيسية القوية التي أنشأتها في الأصل مؤسسات مثل OpenAI أو Anthropic باستخدام وحدات معالجة الرسومات (GPUs) الاستهلاكية القياسية. تساهم هذه الطفرة في جعل الوصول إلى الذكاء الاصطناعي التوليدي المتطور أمراً متاحاً للجميع دون الحاجة إلى مجموعات خوادم باهظة الثمن على مستوى المؤسسات.

Link to this sectionكيف تعمل QLoRA#

يكمن الابتكار الأساسي لـ QLoRA في تقنياتها الموفرة للذاكرة، والمبنية بشكل أساسي على المفاهيم التأسيسية الموجودة في منهجيات تكميم PyTorch. فهي تقدم نوع بيانات مبتكراً يسمى 4-bit NormalFloat (NF4)، والذي تم تحسينه رياضياً للتعامل مع معاملات النموذج ذات التوزيع الطبيعي دون تقليل قدرات الشبكة التنبؤية بشكل كبير.

بالإضافة إلى ذلك، توظف QLoRA استراتيجية تُعرف باسم التكميم المزدوج (Double Quantization)، وهي تقنية معترف بها في أبحاث تعلم الآلة الأوسع، حيث تقوم بتكميم ثوابت التكميم نفسها، مما يزيد من تقليل استهلاك الذاكرة غير الضروري. وبينما يظل النموذج الأساسي الضخم المدرب مسبقاً مجمداً في حالة مضغوطة بدقة 4-بت، يتم إدراج محولات صغيرة قابلة للتدريب في طبقات الشبكة. عند حدوث الانتشار العكسي أثناء تدريب الشبكة العصبية، يتم تمرير التدرجات عبر المعاملات المجمدة بدقة 4-بت لتحديث هذه المحولات الصغيرة وعالية الكفاءة فقط.

Link to this sectionQLoRA مقابل LoRA: فهم الاختلافات#

عند استكشاف الضبط الدقيق الفعال للمعاملات (PEFT)، غالباً ما يتساءل المستخدمون عن كيفية اختلاف QLoRA عن LoRA (Low-Rank Adaptation) التقليدي. يقوم LoRA القياسي بتجميد معاملات النموذج الأصلية وتدريب مصفوفات منخفضة الرتبة لتكييف النموذج مع بيانات جديدة. ومع ذلك، فإنه عادةً ما يحتفظ بالنموذج الأساسي بدقة 16-بت أو 32-بت. تخطو QLoRA خطوة حاسمة إلى الأمام من خلال ضغط النموذج الأساسي إلى دقة 4-بت قبل تطبيق محولات LoRA. هذا يقلل بشكل كبير من استهلاك الذاكرة، مما يسمح لنموذج يحتوي على 65 مليار معامل بأن يتناسب مع وحدة GPU واحدة بسعة 48 جيجابايت—وهو إنجاز مستحيل رياضياً باستخدام LoRA القياسي.

Link to this sectionتطبيقات العالم الحقيقي#

روبوتات الدردشة والمساعدون للمؤسسات: تستخدم الشركات بشكل روتيني QLoRA لضبط النماذج مفتوحة المصدر مثل Llama 3 الخاص بـ Meta على بيانات الأعمال الخاصة. يسمح هذا للمؤسسات ببناء مساعدين ذكاء اصطناعي دقيقين للغاية ومخصصين لنطاق عمل معين، يعملون على بنية تحتية محلية وآمنة لـ الحوسبة السحابية دون تكاليف أجهزة باهظة.
نشر ذكاء الحافة الاصطناعي: مع توسع النماذج النصية لتشمل المجالات المرئية عبر نماذج الرؤية واللغة (VLMs)، تمكن QLoRA المطورين من تخصيص بنى ضخمة متعددة الوسائط للبيئات ذات الموارد المحدودة. يتم استخدام هذه التحسينات الخفيفة بكثافة من قبل فرق البحث في Google AI لتقديم قدرات استنتاج متقدمة للهواتف المحمولة وأجهزة الاستشعار عن بعد.

Link to this sectionالتدريب الفعال في رؤية الحاسوب#

تتشارك الفلسفة الكامنة وراء QLoRA — المتمثلة في تعظيم الدقة الرياضية مع تقليل متطلبات الأجهزة — عبر سير عمل computer vision (CV) الحديثة. على سبيل المثال، صُمم Ultralytics YOLO26 بشكل أصلي ليتعلم بكفاءة وينتشر فوراً على أجهزة الحافة ذات الطاقة المنخفضة. يمكن للمطورين الذين يعملون مع مجموعات بيانات رؤية معقدة الاستفادة من Ultralytics Platform من أجل cloud training سلس، والذي يتعامل بطبيعته مع تحسين الذاكرة وتحديد أحجام الدفعات.

فيما يلي مثال عملي لكيفية تدريب نموذج رؤية فعال باستخدام الدقة المختلطة التلقائية (AMP)، وهو مفهوم وثيق الصلة بأهداف توفير الذاكرة لـ QLoRA:

from ultralytics import YOLO

# Load the highly efficient Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model utilizing mixed-precision (amp) to save GPU memory
# Similar to QLoRA, this optimizes hardware resources during training runs
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, amp=True)

من خلال الاعتماد على معالجة البيانات القوية وautomatic gradient scaling algorithms، تتدرب النماذج بشكل أسرع وتتناسب بسهولة مع وحدات معالجة الرسومات (GPUs) القياسية، مما يسرع المسار نحو deploying computer vision models بنجاح في بيئات الإنتاج الخاصة بالمؤسسات.

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

QLoRA

Link to this sectionكيف تعمل QLoRA#

Link to this sectionQLoRA مقابل LoRA: فهم الاختلافات#

Link to this sectionتطبيقات العالم الحقيقي#

Link to this sectionالتدريب الفعال في رؤية الحاسوب#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!