Group Relative Policy Optimization (GRPO)

Découvre la Group Relative Policy Optimization (GRPO). Apprends comment cet algorithme RL, économe en mémoire et sans critique, améliore le raisonnement LLM et réduit les coûts d'entraînement.

La Group Relative Policy Optimization (GRPO) est un algorithme d'apprentissage par renforcement économe en mémoire, développé pour améliorer les capacités de raisonnement des grands modèles de langage (LLM) et des systèmes d'intelligence artificielle (IA) plus larges. Introduite pour la première fois dans l'article DeepSeekMath de 2024, la GRPO améliore les méthodes d'optimisation traditionnelles en éliminant le besoin d'un réseau de valeur distinct (modèle critique). Au lieu de cela, elle normalise les récompenses d'un groupe de réponses générées à partir du même prompt. En évaluant les réponses par rapport à leurs pairs au sein du groupe, la GRPO réduit considérablement la surcharge de calcul tout en augmentant les performances sur les tâches de raisonnement complexes dans les architectures d'apprentissage profond (DL) modernes.

Link to this sectionEn quoi la GRPO diffère de la PPO#

Bien que la GRPO partage des similitudes avec la Proximal Policy Optimization (PPO) — un algorithme d'optimisation standard souvent utilisé dans l'apprentissage par renforcement à partir du feedback humain (RLHF) — les deux diffèrent considérablement en termes d'architecture. La PPO nécessite un modèle « critique » secondaire qui s'exécute parallèlement au réseau de politique principal pour estimer la valeur d'un état donné. Cela double presque la mémoire requise pendant la phase d'entraînement.

En revanche, la GRPO est un algorithme sans critique. En échantillonnant plusieurs sorties pour un seul prompt et en les notant à l'aide d'un système de récompense basé sur des règles ou d'un vérificateur, la GRPO calcule l'avantage en normalisant les scores au sein de ce groupe spécifique. Cette comparaison relative sert de base de référence, économisant les quantités massives de mémoire qui auraient été occupées par un réseau de valeur et accélérant l'entraînement du modèle global.

Link to this sectionApplications réelles de la GRPO#

La GRPO a permis plusieurs percées récentes dans l'IA générative et le traitement automatique du langage naturel. Deux applications notables incluent :

Modèles de raisonnement mathématique : Dans la très citée publication DeepSeek-R1 et DeepSeekMath, la GRPO a été utilisée pour inciter les modèles à développer un raisonnement par chaîne de pensée long et une auto-vérification, égalant les performances de modèles propriétaires comme o1 d'OpenAI. En récompensant les bonnes réponses finales et le formatage, l'algorithme a permis au modèle de découvrir organiquement des stratégies de résolution de problèmes avancées sans affinage approfondi sur des données annotées par des humains.
Génération de code et logique d'agent : Pour les modèles écrivant du code ou alimentant des flux de travail agentiques autonomes, évaluer la correction absolue est difficile. La GRPO permet aux modèles d'apprendre en exécutant des variantes de code et en les notant relativement en fonction du succès de la compilation ou des cas de test réussis, accélérant ainsi le déploiement d'assistants de codage IA hautement fiables.

Link to this sectionImplémentation des concepts de la GRPO avec PyTorch#

Au fond, la GRPO calcule l'avantage relatif des réponses en normalisant leurs récompenses. Voici une implémentation PyTorch basique démontrant cette normalisation à l'aide d'opérations sur tenseurs standard :



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionFaire avancer l'IA grâce à une optimisation intelligente#

Tout comme la GRPO redéfinit l'efficacité pour la génération de texte, les techniques avancées d'apprentissage automatique (ML) remodèlent continuellement la perception visuelle. L'optimisation des architectures et des fonctions de perte permet aux développeurs de créer des modèles plus légers et plus rapides dans tous les domaines.

Pour les tâches de vision par ordinateur de pointe, l'exploration d'optimisations de bout en bout est tout aussi critique. Par exemple, Ultralytics YOLO26 introduit une architecture nativement sans NMS et des optimiseurs hybrides inspirés de la recherche sur les LLM, améliorant considérablement le déploiement en périphérie. Les développeurs souhaitant tirer parti de flux de travail de vision par ordinateur efficaces peuvent créer, entraîner et déployer des modèles sans effort en utilisant la Ultralytics Platform. Cet outil basé sur le cloud simplifie la gestion complexe des jeux de données et le réglage des hyperparamètres pour des applications de vision robustes et en temps réel.

Explore solutions

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

Group Relative Policy Optimization (GRPO)

Link to this sectionEn quoi la GRPO diffère de la PPO#

Link to this sectionApplications réelles de la GRPO#

Link to this sectionImplémentation des concepts de la GRPO avec PyTorch#

Link to this sectionFaire avancer l'IA grâce à une optimisation intelligente#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !