Group Relative Policy Optimization (GRPO)

Scopri la Group Relative Policy Optimization (GRPO). Impara come questo algoritmo RL efficiente in termini di memoria e senza critico migliori il ragionamento degli LLM e riduca i costi di addestramento.

Group Relative Policy Optimization (GRPO) è un algoritmo di reinforcement learning efficiente in termini di memoria, sviluppato per migliorare le capacità di ragionamento dei Large Language Models (LLMs) e dei sistemi di Artificial Intelligence (AI) più ampi. Introdotto per la prima volta nel documento DeepSeekMath del 2024, GRPO migliora i metodi di ottimizzazione tradizionali eliminando la necessità di una rete di valore separata (modello critic). Invece, normalizza i reward di un gruppo di risposte generate derivate dallo stesso prompt. Valutando le risposte in relazione ai loro pari all'interno del gruppo, GRPO riduce drasticamente il sovraccarico computazionale migliorando al contempo le prestazioni su attività di ragionamento complesse nelle moderne architetture di Deep Learning (DL).

Link to this sectionIn che modo GRPO differisce da PPO#

Sebbene GRPO condivida alcune somiglianze con Proximal Policy Optimization (PPO)—un optimization algorithm standard spesso utilizzato nel reinforcement learning da feedback umano (RLHF)—i due differiscono significativamente nell'architettura. PPO richiede un modello "critic" secondario che viene eseguito in parallelo alla rete di policy principale per stimare il valore di un dato stato. Ciò raddoppia quasi la memoria richiesta durante la training phase.

Al contrario, GRPO è un algoritmo senza critic. Campionando output multipli per un singolo prompt e assegnando loro un punteggio utilizzando un rule-based reward system o un verificatore, GRPO calcola il vantaggio normalizzando i punteggi all'interno di quel gruppo specifico. Questo confronto relativo funge da baseline, risparmiando le enormi quantità di memoria che sarebbero state occupate da una rete di valore e accelerando il model training complessivo.

Link to this sectionApplicazioni reali di GRPO#

GRPO ha guidato diverse scoperte recenti nell'generative AI e nel natural language processing. Due applicazioni degne di nota includono:

Modelli di ragionamento matematico: Nella diffusamente citata release DeepSeek-R1 e in DeepSeekMath, GRPO è stato utilizzato per incentivare i modelli a sviluppare un lungo ragionamento chain-of-thought e di autoverifica, eguagliando le prestazioni di modelli proprietari come o1 di OpenAI. Premiando le risposte finali corrette e la formattazione, l'algoritmo ha permesso al modello di scoprire organicamente strategie avanzate di risoluzione dei problemi senza un esteso fine-tuning su dati annotati dagli umani.
Generazione di codice e logica agentica: Per i modelli che scrivono codice o alimentano agentic workflows autonomi, valutare l'assoluta correttezza è una sfida. GRPO consente ai modelli di imparare eseguendo variazioni di codice e valutandole relativamente in base al successo della compilazione o ai casi di test superati, accelerando l'implementazione di assistenti di programmazione AI altamente affidabili.

Link to this sectionImplementazione dei concetti GRPO in PyTorch#

Fondamentalmente, GRPO calcola il vantaggio relativo delle risposte normalizzando i loro reward. Ecco un'implementazione di base in PyTorch che dimostra questa normalizzazione utilizzando le standard tensor operations:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionFar avanzare l'AI con l'ottimizzazione intelligente#

Proprio come GRPO ridefinisce l'efficienza per la generazione di testo, le tecniche avanzate di Machine Learning (ML) rimodellano continuamente la visual perception. L'ottimizzazione delle architetture e delle loss functions consente agli sviluppatori di costruire modelli più leggeri e veloci in tutti i domini.

For state-of-the-art computer vision tasks, exploring end-to-end optimizations is equally critical. For instance, Ultralytics YOLO26 introduces a natively NMS-free architecture and hybrid optimizers inspired by LLM research, dramatically improving edge deployment. Developers looking to leverage efficient computer vision workflows can build, train, and deploy models effortlessly using the Ultralytics Platform. This cloud-based tool simplifies complex dataset management and hyperparameter tuning for robust, real-time vision applications.

Explore solutions

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Group Relative Policy Optimization (GRPO)

Link to this sectionIn che modo GRPO differisce da PPO#

Link to this sectionApplicazioni reali di GRPO#

Link to this sectionImplementazione dei concetti GRPO in PyTorch#

Link to this sectionFar avanzare l'AI con l'ottimizzazione intelligente#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!