Group Relative Policy Optimization (GRPO)
Scopri la Group Relative Policy Optimization (GRPO). Impara come questo algoritmo di RL efficiente in termini di memoria e privo di critic migliora il ragionamento degli LLM e riduce i costi di addestramento.
Group Relative Policy Optimization (GRPO) è un algoritmo di reinforcement learning efficiente in termini di memoria, sviluppato per migliorare le capacità di ragionamento dei Large Language Models (LLMs) e dei sistemi di Artificial Intelligence (AI) più ampi. Introdotto per la prima volta nel paper DeepSeekMath del 2024, GRPO perfeziona i metodi di ottimizzazione tradizionali eliminando la necessità di una rete di valore separata (modello critic). Invece, normalizza i reward di un gruppo di risposte generate a partire dallo stesso prompt. Valutando le risposte in relazione ai loro pari all'interno del gruppo, GRPO riduce drasticamente il carico computazionale, aumentando al contempo le prestazioni su compiti di ragionamento complessi nelle moderne architetture di Deep Learning (DL).
In che modo GRPO differisce da PPO
Sebbene GRPO condivida somiglianze con Proximal Policy Optimization (PPO)—un optimization algorithm standard spesso utilizzato nel reinforcement learning da feedback umano (RLHF)—i due differiscono significativamente nell'architettura. PPO richiede un modello "critic" secondario che viene eseguito parallelamente alla policy network principale per stimare il valore di un dato stato. Questo raddoppia quasi la memoria richiesta durante la training phase.
Al contrario, GRPO è un algoritmo privo di critic. Campionando output multipli per un singolo prompt e valutandoli tramite un rule-based reward system o un verificatore, GRPO calcola il vantaggio normalizzando i punteggi all'interno di quel gruppo specifico. Questo confronto relativo funge da base di riferimento, risparmiando l'enorme quantità di memoria che sarebbe stata occupata da una rete di valore e accelerando il model training complessivo.
Applicazioni reali di GRPO
GRPO ha guidato diversi progressi recenti nell'generative AI e nel natural language processing. Due applicazioni degne di nota includono:
- Modelli di ragionamento matematico: Nel rilascio DeepSeek-R1 ampiamente citato e in DeepSeekMath, GRPO è stato utilizzato per incentivare i modelli a sviluppare un lungo ragionamento chain-of-thought e di autoverifica, eguagliando le prestazioni di modelli proprietari come o1 di OpenAI. Premiando le risposte finali corrette e la formattazione, l'algoritmo ha permesso al modello di scoprire organicamente strategie avanzate di risoluzione dei problemi senza un esteso fine-tuning su dati annotati dagli umani.
- Generazione di codice e logica agentica: Per i modelli che scrivono codice o alimentano agentic workflows autonomi, valutare la correttezza assoluta è una sfida. GRPO consente ai modelli di apprendere eseguendo variazioni di codice e valutandole relativamente in base al successo della compilazione o ai casi di test superati, accelerando l'implementazione di assistenti alla programmazione AI altamente affidabili.
Implementazione dei concetti di GRPO in PyTorch
Fondamentalmente, GRPO calcola il vantaggio relativo delle risposte normalizzando i loro reward. Ecco una implementazione di base di PyTorch che dimostra questa normalizzazione utilizzando le normali tensor operations:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesFar avanzare l'IA con un'ottimizzazione intelligente
Proprio come GRPO ridefinisce l'efficienza per la generazione di testo, tecniche avanzate di Machine Learning (ML) rimodellano continuamente la visual perception. L'ottimizzazione delle architetture e delle loss functions consente agli sviluppatori di costruire modelli più leggeri e veloci in tutti i domini.
For state-of-the-art computer vision tasks, exploring end-to-end optimizations is equally critical. For instance, Ultralytics YOLO26 introduces a natively NMS-free architecture and hybrid optimizers inspired by LLM research, dramatically improving edge deployment. Developers looking to leverage efficient computer vision workflows can build, train, and deploy models effortlessly using the Ultralytics Platform. This cloud-based tool simplifies complex dataset management and hyperparameter tuning for robust, real-time vision applications.






