Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Group Relative Policy Optimization (GRPO)

Scopri la Group Relative Policy Optimization (GRPO). Impara come questo algoritmo di RL efficiente in termini di memoria e privo di critic migliora il ragionamento degli LLM e riduce i costi di addestramento.

Group Relative Policy Optimization (GRPO) è un algoritmo di reinforcement learning efficiente in termini di memoria, sviluppato per migliorare le capacità di ragionamento dei Large Language Models (LLMs) e dei sistemi di Artificial Intelligence (AI) più ampi. Introdotto per la prima volta nel paper DeepSeekMath del 2024, GRPO perfeziona i metodi di ottimizzazione tradizionali eliminando la necessità di una rete di valore separata (modello critic). Invece, normalizza i reward di un gruppo di risposte generate a partire dallo stesso prompt. Valutando le risposte in relazione ai loro pari all'interno del gruppo, GRPO riduce drasticamente il carico computazionale, aumentando al contempo le prestazioni su compiti di ragionamento complessi nelle moderne architetture di Deep Learning (DL).

In che modo GRPO differisce da PPO

Sebbene GRPO condivida somiglianze con Proximal Policy Optimization (PPO)—un optimization algorithm standard spesso utilizzato nel reinforcement learning da feedback umano (RLHF)—i due differiscono significativamente nell'architettura. PPO richiede un modello "critic" secondario che viene eseguito parallelamente alla policy network principale per stimare il valore di un dato stato. Questo raddoppia quasi la memoria richiesta durante la training phase.

Al contrario, GRPO è un algoritmo privo di critic. Campionando output multipli per un singolo prompt e valutandoli tramite un rule-based reward system o un verificatore, GRPO calcola il vantaggio normalizzando i punteggi all'interno di quel gruppo specifico. Questo confronto relativo funge da base di riferimento, risparmiando l'enorme quantità di memoria che sarebbe stata occupata da una rete di valore e accelerando il model training complessivo.

Applicazioni reali di GRPO

GRPO ha guidato diversi progressi recenti nell'generative AI e nel natural language processing. Due applicazioni degne di nota includono:

  1. Modelli di ragionamento matematico: Nel rilascio DeepSeek-R1 ampiamente citato e in DeepSeekMath, GRPO è stato utilizzato per incentivare i modelli a sviluppare un lungo ragionamento chain-of-thought e di autoverifica, eguagliando le prestazioni di modelli proprietari come o1 di OpenAI. Premiando le risposte finali corrette e la formattazione, l'algoritmo ha permesso al modello di scoprire organicamente strategie avanzate di risoluzione dei problemi senza un esteso fine-tuning su dati annotati dagli umani.
  2. Generazione di codice e logica agentica: Per i modelli che scrivono codice o alimentano agentic workflows autonomi, valutare la correttezza assoluta è una sfida. GRPO consente ai modelli di apprendere eseguendo variazioni di codice e valutandole relativamente in base al successo della compilazione o ai casi di test superati, accelerando l'implementazione di assistenti alla programmazione AI altamente affidabili.

Implementazione dei concetti di GRPO in PyTorch

Fondamentalmente, GRPO calcola il vantaggio relativo delle risposte normalizzando i loro reward. Ecco una implementazione di base di PyTorch che dimostra questa normalizzazione utilizzando le normali tensor operations:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Far avanzare l'IA con un'ottimizzazione intelligente

Proprio come GRPO ridefinisce l'efficienza per la generazione di testo, tecniche avanzate di Machine Learning (ML) rimodellano continuamente la visual perception. L'ottimizzazione delle architetture e delle loss functions consente agli sviluppatori di costruire modelli più leggeri e veloci in tutti i domini.

For state-of-the-art computer vision tasks, exploring end-to-end optimizations is equally critical. For instance, Ultralytics YOLO26 introduces a natively NMS-free architecture and hybrid optimizers inspired by LLM research, dramatically improving edge deployment. Developers looking to leverage efficient computer vision workflows can build, train, and deploy models effortlessly using the Ultralytics Platform. This cloud-based tool simplifies complex dataset management and hyperparameter tuning for robust, real-time vision applications.

Explore solutions

Real-time AI tailored to your operation

AI nell'agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your operation

AI nell'automotive

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La vision AI eleva la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

AI nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. L'AI per la visione nel settore sanitario potenzia l'imaging medico, diagnostiche più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Ripensa la vendita al dettaglio con i modelli Ultralytics YOLO. L'AI per la visione potenzia il monitoraggio dell'inventario, degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your team

AI nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI tailored to your operation

AI nell'agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your operation

AI nell'automotive

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La vision AI eleva la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

AI nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. L'AI per la visione nel settore sanitario potenzia l'imaging medico, diagnostiche più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Ripensa la vendita al dettaglio con i modelli Ultralytics YOLO. L'AI per la visione potenzia il monitoraggio dell'inventario, degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your team

AI nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI tailored to your operation

AI nell'agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your operation

AI nell'automotive

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La vision AI eleva la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

AI nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. L'AI per la visione nel settore sanitario potenzia l'imaging medico, diagnostiche più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Ripensa la vendita al dettaglio con i modelli Ultralytics YOLO. L'AI per la visione potenzia il monitoraggio dell'inventario, degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your team

AI nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning