Group Relative Policy Optimization (GRPO)
Découvre l'optimisation de politique relative au groupe (GRPO). Apprends comment cet algorithme de RL économe en mémoire et sans critique améliore le raisonnement des LLM et réduit les coûts d'entraînement.
La Group Relative Policy Optimization (GRPO) est un algorithme d'apprentissage par renforcement économe en mémoire, conçu pour améliorer les capacités de raisonnement des grands modèles de langage (LLM) et des systèmes d'intelligence artificielle (IA) plus larges. Introduite pour la première fois dans le papier DeepSeekMath de 2024, la GRPO améliore les méthodes d'optimisation traditionnelles en éliminant le besoin d'un réseau de valeur distinct (modèle critique). Au lieu de cela, elle normalise les récompenses d'un groupe de réponses générées à partir du même prompt. En évaluant les réponses par rapport à leurs pairs au sein du groupe, la GRPO réduit considérablement la charge computationnelle tout en augmentant les performances sur des tâches de raisonnement complexes dans les architectures modernes de Deep Learning (DL).
En quoi la GRPO diffère-t-elle de la PPO
Bien que la GRPO partage des similitudes avec la Proximal Policy Optimization (PPO) — un algorithme d'optimisation standard souvent utilisé dans l'apprentissage par renforcement à partir de feedback humain (RLHF) — les deux diffèrent considérablement en termes d'architecture. La PPO nécessite un modèle « critique » secondaire qui fonctionne en parallèle du réseau de politique principal pour estimer la valeur d'un état donné. Cela double presque la mémoire requise pendant la phase d'entraînement.
En revanche, la GRPO est un algorithme sans critique. En échantillonnant plusieurs sorties pour un seul prompt et en les notant à l'aide d'un système de récompense basé sur des règles ou d'un vérificateur, la GRPO calcule l'avantage en normalisant les scores au sein de ce groupe spécifique. Cette comparaison relative sert de base de référence, économisant les quantités massives de mémoire qui auraient été occupées par un réseau de valeur et accélérant l'ensemble de l'entraînement des modèles.
Applications concrètes de la GRPO
La GRPO a permis plusieurs percées récentes dans l'IA générative et le traitement du langage naturel. Deux applications notables incluent :
- Modèles de raisonnement mathématique : Dans la très citée publication DeepSeek-R1 et DeepSeekMath, la GRPO a été utilisée pour inciter les modèles à développer un raisonnement en chaîne de pensée (chain-of-thought) et une auto-vérification, atteignant les performances de modèles propriétaires comme o1 d'OpenAI. En récompensant les réponses finales correctes et le formatage, l'algorithme a permis au modèle de découvrir organiquement des stratégies avancées de résolution de problèmes sans fine-tuning extensif sur des données annotées par des humains.
- Génération de code et logique agentique : Pour les modèles qui écrivent du code ou alimentent des flux de travail agentiques autonomes, évaluer la correction absolue est difficile. La GRPO permet aux modèles d'apprendre en exécutant des variantes de code et en les notant relativement en fonction du succès de la compilation ou des cas de test réussis, accélérant ainsi le déploiement d'assistants de codage IA hautement fiables.
Implémentation des concepts de GRPO dans PyTorch
Au cœur de son fonctionnement, la GRPO calcule l'avantage relatif des réponses en normalisant leurs récompenses. Voici une implémentation de base en PyTorch démontrant cette normalisation à l'aide d'opérations sur tenseurs standard :
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesFaire avancer l'IA avec une optimisation intelligente
Tout comme la GRPO redéfinit l'efficacité de la génération de texte, les techniques avancées d'apprentissage automatique (ML) remodèlent continuellement la perception visuelle. L'optimisation des architectures et des fonctions de perte permet aux développeurs de construire des modèles plus légers et plus rapides dans tous les domaines.
Pour les tâches de vision par ordinateur de pointe, l'exploration d'optimisations de bout en bout est tout aussi critique. Par exemple, Ultralytics YOLO26 introduit une architecture nativement sans NMS et des optimiseurs hybrides inspirés par la recherche sur les LLM, améliorant considérablement le déploiement en périphérie (edge). Les développeurs cherchant à tirer parti de flux de travail efficaces en vision par ordinateur peuvent construire, entraîner et déployer des modèles sans effort à l'aide de la plateforme Ultralytics. Cet outil basé sur le cloud simplifie la gestion complexe des jeux de données et le réglage des hyperparamètres pour des applications de vision robustes en temps réel.






