حسّن نماذج اللغة الكبيرة بكفاءة باستخدام ضبط الموجهات—قلل التكاليف، ووفر الموارد، وحقق القدرة على التكيف الخاصة بالمهمة دون عناء.
الضبط الفوري هو استراتيجية لتكييف نماذج الأساس المدربة مسبقًا المُدرّبة مسبقًا على مهام نهائية محددة دون التكلفة الحسابية لإعادة تدريب الشبكة بأكملها. كشكل من أشكال الضبط الدقيق الفعال للمعلمات (PEFT)، تقوم هذه التقنية بتجميد المعلمات الضخمة للنموذج الأصلي وتحسين مجموعة صغيرة فقط من من المتجهات القابلة للتعلّم والمعروفة باسم "المطالبات اللينة". على عكس النص المقروء بشرياً المستخدم في هندسة المطالبات، فإن المطالبات اللينة هي عبارة عن مدمجة رقمية يتم إضافتها مسبقًا إلى بيانات الإدخال. هذه المتجهات المستفادة هذه توجه النموذج المجمد لتوليد المخرجات المطلوبة، مما يقلل بشكل كبير من التخزين والذاكرة مقارنةً بالتدريب الكامل للنموذج. هذا النهج يجعل من الممكن خدمة العديد من المهام المتخصصة المختلفة باستخدام نموذج أساسي واحد مشترك.
تعتمد الآلية الكامنة وراء الضبط الفوري على مفهوم تعديل المدخلات بدلاً من بنية النموذج. في سير عمل التعلم الآلي النموذجي (ML) الذي يتضمن نماذج اللغة الكبيرة (LLMs) أو نماذج اللغة المرئية، يتم تحويل النص أو الصورة المدخلة إلى سلسلة من المتجهات العددية. في الضبط الفوري، يتم تحويل المتجهات الإضافية القابلة للتدريب إضافية قابلة للتدريب (المطالبة اللينة) في بداية هذا التسلسل.
أثناء مرحلة الانتساب العكسي للتدريب، تقوم خوارزمية تقوم خوارزمية نزول التدرج بتحديث هذه الجديدة، تاركةً المليارات من أوزان النموذج في العمود الفقري دون تغيير. تم تسليط الضوء على هذه الطريقة في بحث أجراه Google للذكاء الاصطناعي، مما يدل على أنه مع نمو النماذج بشكل أكبر، يمكن للضبط الفوري أن يضاهي أداء الضبط الدقيق الكامل.
يعمل الضبط الفوري على تحويل الصناعات من خلال جعل الذكاء الاصطناعي المتقدم (AI) أكثر أكثر سهولة وقابلية للتطوير.
من الضروري التمييز بين الضبط الفوري وتقنيات التكيف المماثلة:
في حين أن الضبط الفوري هو الأكثر شهرة في معالجة اللغات الطبيعية (NLP), فإن المفهوم الميكانيكي الأساسي tensorالعمود الفقري الكبير وتحسين tensorمفهوم عالمي في التعلّم العميق (DL). ما يلي PyTorch المقتطف التالي يوضح المنطق الأساسي لـ لتجميد معلمات النموذج وإنشاء معلمة موجه قابلة للتعلم.
import torch
import torch.nn as nn
# Initialize a hypothetical pre-trained layer (the frozen backbone)
backbone = nn.Linear(768, 10)
# Freeze the backbone parameters so they don't update during training
for param in backbone.parameters():
param.requires_grad = False
# Create a 'soft prompt' embedding that IS trainable
# This represents the learnable vectors prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 768), requires_grad=True)
# Setup an optimizer that only targets the soft prompt
optimizer = torch.optim.Adam([soft_prompt], lr=0.001)
يوضح هذا الرمز كيف يمكن للمطورين التحكم في أجزاء النظام التي تتعلم، وهو جانب أساسي في تحسين الشبكات العصبية. بالنسبة للرؤية الحاسوبية القياسية القياسية، فإن النماذج الفعالة مثل Ultralytics YOLO11 عادةً عادةً ما يتم تدريبها باستخدام الضبط الدقيق القياسي على مجموعات بيانات مخصصة, ولكن مبادئ الكفاءة هي التي تقود تطوير البنى المستقبلية مثل YOLO26.
تزداد أهمية الضبط الفوري في الرؤية الحاسوبية (CV) مع ظهور النماذج متعددة الوسائط مثل CLIP. يستكشف الباحثون استكشاف "ضبط الموجهات البصرية" حيث يتم إضافة بقع أو رموز بكسل قابلة للتعلم إلى صور الإدخال لتكييف محولات الرؤية لمهام اكتشاف الأجسام الجديدة دون إعادة تدريب مستخرجي الميزات الثقيلة. وهذا يعكس مكاسب الكفاءة التي شوهدت في النماذج اللغوية ويتماشى مع مع اتجاه الصناعة نحو الذكاء الاصطناعي الأخضر من خلال تقليل استهلاك الطاقة أثناء التدريب.