Group Relative Policy Optimization (GRPO)

اكتشف تحسين السياسة النسبية للمجموعة (GRPO). تعلم كيف تعزز خوارزمية التعلم التعزيزي هذه، الموفرة للذاكرة والخالية من النقد، استدلال LLM وتقلل تكاليف التدريب.

تعد "تحسين السياسة النسبية للمجموعة" (GRPO) خوارزمية فعالة في استخدام الذاكرة من التعلم التعزيزي تم تطويرها لتعزيز قدرات الاستدلال في نماذج اللغات الكبيرة (LLMs) وأنظمة الذكاء الاصطناعي (AI) الأوسع. طُرحت لأول مرة في ورقة بحث DeepSeekMath لعام 2024، وتعمل GRPO على تحسين أساليب التحسين التقليدية من خلال إزالة الحاجة إلى شبكة قيم منفصلة (نموذج ناقد). وبدلاً من ذلك، تقوم بتطبيع مكافآت مجموعة من الاستجابات المُولدة والمشتقة من نفس المطالبة. من خلال تقييم الاستجابات بالنسبة لنظيراتها داخل المجموعة، تقلل GRPO بشكل كبير من العبء الحسابي مع تعزيز الأداء في مهام الاستدلال المعقدة في بنيات التعلم العميق (DL) الحديثة.

Link to this sectionكيف تختلف GRPO عن PPO#

بينما تشترك GRPO في أوجه التشابه مع تحسين السياسة القريبة (PPO) - وهي خوارزمية تحسين قياسية تُستخدم غالبًا في التعلم التعزيزي من التغذية الراجعة البشرية (RLHF) - إلا أن الاثنين يختلفان بشكل كبير في البنية. تتطلب PPO نموذج "ناقد" ثانوي يعمل بالتوازي مع شبكة السياسة الرئيسية لتقدير قيمة حالة معينة. وهذا يضاعف تقريبًا الذاكرة المطلوبة أثناء مرحلة التدريب.

في المقابل، GRPO هي خوارزمية خالية من الناقد. من خلال أخذ عينات من مخرجات متعددة لمطالبة واحدة وتقييمها باستخدام نظام مكافأة قائم على القواعد أو مدقق، تحسب GRPO الميزة عن طريق تطبيع الدرجات داخل تلك المجموعة المحددة. يعمل هذا التقييم النسبي كخط أساس، مما يوفر كميات هائلة من الذاكرة التي كانت ستشغلها شبكة القيم ويسرع تدريب النموذج بشكل عام.

Link to this sectionالتطبيقات الواقعية لـ GRPO#

قادت GRPO العديد من الإنجازات الأخيرة في الذكاء الاصطناعي التوليدي ومعالجة اللغات الطبيعية. ومن بين تطبيقين بارزين:

نماذج الاستدلال الرياضي: في إصدار DeepSeek-R1 المستشهد به على نطاق واسع وDeepSeekMath، استُخدمت GRPO لتحفيز النماذج على تطوير سلسلة تفكير طويلة والتحقق الذاتي، مما يضاهي أداء النماذج المملوكة مثل o1 من OpenAI. من خلال مكافأة الإجابات النهائية الصحيحة والتنسيق، مكنت الخوارزمية النموذج من اكتشاف استراتيجيات متقدمة لحل المشكلات بشكل طبيعي دون الحاجة إلى ضبط دقيق مكثف على بيانات مشروحة بشريًا.
توليد الكود والمنطق الوكيل: بالنسبة للنماذج التي تكتب الكود أو تشغل سير عمل الوكيل المستقلة، يمثل تقييم الدقة المطلقة تحديًا. تسمح GRPO للنماذج بالتعلم عن طريق تنفيذ تنويعات الكود وتقييمها نسبيًا بناءً على نجاح التجميع أو حالات الاختبار التي تم اجتيازها، مما يسرع من نشر مساعدي البرمجة المعتمدين على الذكاء الاصطناعي والموثوقين للغاية.

Link to this sectionتطبيق مفاهيم GRPO في PyTorch#

في جوهرها، تحسب GRPO الميزة النسبية للاستجابات عن طريق تطبيع مكافآتها. إليك تطبيق أساسي لـ PyTorch يوضح هذا التطبيع باستخدام عمليات الموتر القياسية:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionالنهوض بالذكاء الاصطناعي من خلال التحسين الذكي#

تمامًا كما تعيد GRPO تعريف الكفاءة لتوليد النصوص، تعيد تقنيات تعلم الآلة (ML) المتقدمة تشكيل الإدراك البصري بشكل مستمر. يتيح تحسين البنيات ودوال الخسارة للمطورين بناء نماذج أخف وأسرع في جميع المجالات.

بالنسبة لمهام الرؤية الحاسوبية الحديثة، يعد استكشاف التحسينات الشاملة (end-to-end) أمرًا بالغ الأهمية بنفس القدر. على سبيل المثال، تقدم Ultralytics YOLO26 بنية خالية من NMS محليًا ومُحسِّنات هجينة مستوحاة من أبحاث LLM، مما يحسن النشر على الحافة بشكل كبير. يمكن للمطورين الذين يتطلعون إلى الاستفادة من سير عمل الرؤية الحاسوبية الفعالة بناء النماذج وتدريبها ونشرها دون عناء باستخدام Ultralytics Platform. تعمل هذه الأداة السحابية على تبسيط إدارة مجموعات البيانات المعقدة وضبط المعاملات الفائقة لتطبيقات الرؤية القوية في الوقت الفعلي.

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

Group Relative Policy Optimization (GRPO)

Link to this sectionكيف تختلف GRPO عن PPO#

Link to this sectionالتطبيقات الواقعية لـ GRPO#

Link to this sectionتطبيق مفاهيم GRPO في PyTorch#

Link to this sectionالنهوض بالذكاء الاصطناعي من خلال التحسين الذكي#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!