Group Relative Policy Optimization (GRPO)
اكتشف تحسين السياسة النسبية للمجموعة (GRPO). تعلم كيف تعزز خوارزمية التعلم التعزيزي هذه، التي تتسم بكفاءة الذاكرة وخلوها من الناقد، استنتاج النماذج اللغوية الكبيرة (LLM) وتخفض تكاليف التدريب.
يعد تحسين السياسة النسبية للمجموعة (GRPO) خوارزمية فعالة في استخدام الذاكرة لـ التعلم التعزيزي طُوِّرت لتعزيز قدرات الاستدلال لـ نماذج اللغة الكبيرة (LLMs) وأنظمة الذكاء الاصطناعي (AI) الأوسع نطاقاً. قُدِّمت الخوارزمية لأول مرة في ورقة DeepSeekMath البحثية لعام 2024، وتعمل GRPO على تحسين طرق التحسين التقليدية من خلال إزالة الحاجة إلى شبكة قيم منفصلة (نموذج ناقد). بدلاً من ذلك، تقوم الخوارزمية بتطبيع مكافآت مجموعة من الاستجابات المُنشأة المشتقة من نفس المطالبة. من خلال تقييم الاستجابات بالنسبة لنظرائها داخل المجموعة، تقلل GRPO بشكل كبير من العبء الحسابي مع تعزيز الأداء في مهام الاستدلال المعقدة في بنى التعلم العميق (DL) الحديثة.
كيف تختلف GRPO عن PPO
على الرغم من أن GRPO تشترك في أوجه التشابه مع تحسين السياسة القريبة (PPO)—وهي خوارزمية تحسين قياسية تُستخدم غالباً في التعلم التعزيزي من التغذية الراجعة البشرية (RLHF)—إلا أن الاثنين يختلفان بشكل كبير في البنية. تتطلب PPO نموذج "ناقد" ثانوياً يعمل بالتوازي مع شبكة السياسة الرئيسية لتقدير قيمة حالة معينة. وهذا يضاعف تقريباً الذاكرة المطلوبة أثناء مرحلة التدريب.
في المقابل، تعد GRPO خوارزمية خالية من الناقد. من خلال أخذ عينات من مخرجات متعددة لمطالبة واحدة وتقييمها باستخدام نظام مكافأة قائم على القواعد أو مدقق، تحسب GRPO الميزة عن طريق تطبيع الدرجات داخل تلك المجموعة المحددة. يعمل هذا التقييم النسبي كأساس، مما يوفر كميات هائلة من الذاكرة التي كانت ستشغلها شبكة القيمة ويسرع تدريب النموذج بشكل عام.
التطبيقات الواقعية لـ GRPO
لقد قادت GRPO العديد من الإنجازات الأخيرة في الذكاء الاصطناعي التوليدي ومعالجة اللغات الطبيعية. ومن بين التطبيقين البارزين ما يلي:
- نماذج الاستدلال الرياضي: في إصدار DeepSeek-R1 المستشهد به على نطاق واسع وDeepSeekMath، استُخدِمت GRPO لتحفيز النماذج على تطوير استدلال طويل لسلسلة الأفكار والتحقق الذاتي، مما يضاهي أداء النماذج المملوكة مثل نموذج o1 من OpenAI. من خلال مكافأة الإجابات النهائية الصحيحة والتنسيق، مكنت الخوارزمية النموذج من اكتشاف استراتيجيات متقدمة لحل المشكلات بشكل عضوي دون الحاجة إلى ضبط دقيق مكثف على بيانات مشروحة بشرياً.
- توليد الأكواد والمنطق الوكيلي: بالنسبة للنماذج التي تكتب الأكواد أو تشغل سير عمل وكيلي ذاتي، يمثل تقييم الدقة المطلقة تحدياً. تسمح GRPO للنماذج بالتعلم من خلال تنفيذ متغيرات الأكواد وتسجيلها نسبياً بناءً على نجاح التجميع أو حالات الاختبار التي تم اجتيازها، مما يسرع من نشر مساعدي برمجة يعملون بالذكاء الاصطناعي وموثوقين للغاية.
تنفيذ مفاهيم GRPO في PyTorch
في جوهرها، تحسب GRPO الميزة النسبية للاستجابات من خلال تطبيع مكافآتها. إليك تنفيذ أساسي لـ PyTorch يوضح هذا التطبيع باستخدام عمليات التنسور القياسية:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesالنهوض بالذكاء الاصطناعي من خلال التحسين الذكي
تماماً كما تعيد GRPO تعريف الكفاءة لتوليد النصوص، تعيد تقنيات التعلم الآلي (ML) المتقدمة تشكيل الإدراك البصري باستمرار. يتيح تحسين البنى ودوال الخسارة للمطورين بناء نماذج أخف وأسرع في جميع المجالات.
For state-of-the-art computer vision tasks, exploring end-to-end optimizations is equally critical. For instance, Ultralytics YOLO26 introduces a natively NMS-free architecture and hybrid optimizers inspired by LLM research, dramatically improving edge deployment. Developers looking to leverage efficient computer vision workflows can build, train, and deploy models effortlessly using the Ultralytics Platform. This cloud-based tool simplifies complex dataset management and hyperparameter tuning for robust, real-time vision applications.






