Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Group Relative Policy Optimization (GRPO)

Découvre l'optimisation de politique relative au groupe (GRPO). Apprends comment cet algorithme de RL économe en mémoire et sans critique améliore le raisonnement des LLM et réduit les coûts d'entraînement.

La Group Relative Policy Optimization (GRPO) est un algorithme d'apprentissage par renforcement économe en mémoire, conçu pour améliorer les capacités de raisonnement des grands modèles de langage (LLM) et des systèmes d'intelligence artificielle (IA) plus larges. Introduite pour la première fois dans le papier DeepSeekMath de 2024, la GRPO améliore les méthodes d'optimisation traditionnelles en éliminant le besoin d'un réseau de valeur distinct (modèle critique). Au lieu de cela, elle normalise les récompenses d'un groupe de réponses générées à partir du même prompt. En évaluant les réponses par rapport à leurs pairs au sein du groupe, la GRPO réduit considérablement la charge computationnelle tout en augmentant les performances sur des tâches de raisonnement complexes dans les architectures modernes de Deep Learning (DL).

En quoi la GRPO diffère-t-elle de la PPO

Bien que la GRPO partage des similitudes avec la Proximal Policy Optimization (PPO) — un algorithme d'optimisation standard souvent utilisé dans l'apprentissage par renforcement à partir de feedback humain (RLHF) — les deux diffèrent considérablement en termes d'architecture. La PPO nécessite un modèle « critique » secondaire qui fonctionne en parallèle du réseau de politique principal pour estimer la valeur d'un état donné. Cela double presque la mémoire requise pendant la phase d'entraînement.

En revanche, la GRPO est un algorithme sans critique. En échantillonnant plusieurs sorties pour un seul prompt et en les notant à l'aide d'un système de récompense basé sur des règles ou d'un vérificateur, la GRPO calcule l'avantage en normalisant les scores au sein de ce groupe spécifique. Cette comparaison relative sert de base de référence, économisant les quantités massives de mémoire qui auraient été occupées par un réseau de valeur et accélérant l'ensemble de l'entraînement des modèles.

Applications concrètes de la GRPO

La GRPO a permis plusieurs percées récentes dans l'IA générative et le traitement du langage naturel. Deux applications notables incluent :

  1. Modèles de raisonnement mathématique : Dans la très citée publication DeepSeek-R1 et DeepSeekMath, la GRPO a été utilisée pour inciter les modèles à développer un raisonnement en chaîne de pensée (chain-of-thought) et une auto-vérification, atteignant les performances de modèles propriétaires comme o1 d'OpenAI. En récompensant les réponses finales correctes et le formatage, l'algorithme a permis au modèle de découvrir organiquement des stratégies avancées de résolution de problèmes sans fine-tuning extensif sur des données annotées par des humains.
  2. Génération de code et logique agentique : Pour les modèles qui écrivent du code ou alimentent des flux de travail agentiques autonomes, évaluer la correction absolue est difficile. La GRPO permet aux modèles d'apprendre en exécutant des variantes de code et en les notant relativement en fonction du succès de la compilation ou des cas de test réussis, accélérant ainsi le déploiement d'assistants de codage IA hautement fiables.

Implémentation des concepts de GRPO dans PyTorch

Au cœur de son fonctionnement, la GRPO calcule l'avantage relatif des réponses en normalisant leurs récompenses. Voici une implémentation de base en PyTorch démontrant cette normalisation à l'aide d'opérations sur tenseurs standard :



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Faire avancer l'IA avec une optimisation intelligente

Tout comme la GRPO redéfinit l'efficacité de la génération de texte, les techniques avancées d'apprentissage automatique (ML) remodèlent continuellement la perception visuelle. L'optimisation des architectures et des fonctions de perte permet aux développeurs de construire des modèles plus légers et plus rapides dans tous les domaines.

Pour les tâches de vision par ordinateur de pointe, l'exploration d'optimisations de bout en bout est tout aussi critique. Par exemple, Ultralytics YOLO26 introduit une architecture nativement sans NMS et des optimiseurs hybrides inspirés par la recherche sur les LLM, améliorant considérablement le déploiement en périphérie (edge). Les développeurs cherchant à tirer parti de flux de travail efficaces en vision par ordinateur peuvent construire, entraîner et déployer des modèles sans effort à l'aide de la plateforme Ultralytics. Cet outil basé sur le cloud simplifie la gestion complexe des jeux de données et le réglage des hyperparamètres pour des applications de vision robustes en temps réel.

Explore solutions

Real-time AI tailored to your operation

L'IA dans l'agriculture

Intègre la vision par IA à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise le suivi des cultures, le monitoring du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. La vision par IA améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA dans le secteur de la vente au détail

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans le secteur de la santé favorise une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente la vente au détail avec les modèles Ultralytics YOLO. L'IA de vision alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations clients plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA en robotique

Propulse des machines plus intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans l'industrie manufacturière

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Rationalise la logistique avec les modèles Ultralytics YOLO. L'IA visuelle permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Intègre la vision par IA à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise le suivi des cultures, le monitoring du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. La vision par IA améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA dans le secteur de la vente au détail

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans le secteur de la santé favorise une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente la vente au détail avec les modèles Ultralytics YOLO. L'IA de vision alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations clients plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA en robotique

Propulse des machines plus intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans l'industrie manufacturière

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Rationalise la logistique avec les modèles Ultralytics YOLO. L'IA visuelle permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Intègre la vision par IA à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise le suivi des cultures, le monitoring du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. La vision par IA améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA dans le secteur de la vente au détail

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans le secteur de la santé favorise une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente la vente au détail avec les modèles Ultralytics YOLO. L'IA de vision alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations clients plus intelligentes.

En savoir plus
Real-time AI that works with your team

IA en robotique

Propulse des machines plus intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans l'industrie manufacturière

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Rationalise la logistique avec les modèles Ultralytics YOLO. L'IA visuelle permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique