Group Relative Policy Optimization (GRPO)

Descubre la optimización de políticas relativas de grupo (GRPO). Aprende cómo este algoritmo de RL, eficiente en memoria y sin crítico, mejora el razonamiento de los LLM y reduce los costes de entrenamiento.

Group Relative Policy Optimization (GRPO) es un algoritmo de aprendizaje por refuerzo eficiente en cuanto a memoria, desarrollado para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Extensos (LLMs) y de sistemas de Inteligencia Artificial (IA) más amplios. Introducido por primera vez en el artículo DeepSeekMath de 2024, GRPO mejora los métodos de optimización tradicionales al eliminar la necesidad de una red de valor (modelo crítico) independiente. En su lugar, normaliza las recompensas de un grupo de respuestas generadas a partir del mismo prompt. Al evaluar las respuestas en relación con sus pares dentro del grupo, GRPO reduce drásticamente la sobrecarga computacional mientras aumenta el rendimiento en tareas de razonamiento complejas en arquitecturas modernas de Deep Learning (DL).

Link to this sectionCómo se diferencia GRPO de PPO#

Aunque GRPO comparte similitudes con la Optimización de Política Proximal (PPO)—un algoritmo de optimización estándar utilizado a menudo en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF)—ambos difieren significativamente en su arquitectura. PPO requiere un modelo "crítico" secundario que se ejecuta en paralelo a la red de política principal para estimar el valor de un estado determinado. Esto casi duplica la memoria necesaria durante la fase de entrenamiento.

Por el contrario, GRPO es un algoritmo sin crítico. Al muestrear múltiples salidas para un mismo prompt y puntuarlas mediante un sistema de recompensa basado en reglas o un verificador, GRPO calcula la ventaja normalizando las puntuaciones dentro de ese grupo específico. Esta comparación relativa actúa como línea base, ahorrando las enormes cantidades de memoria que habría ocupado una red de valor y acelerando el entrenamiento de modelos en general.

Link to this sectionAplicaciones reales de GRPO#

GRPO ha impulsado varios avances recientes en IA generativa y procesamiento de lenguaje natural. Dos aplicaciones notables incluyen:

Modelos de Razonamiento Matemático: En el ampliamente citado lanzamiento de DeepSeek-R1 y DeepSeekMath, GRPO se utilizó para incentivar a los modelos a desarrollar largas cadenas de pensamiento y autoverificación, igualando el rendimiento de modelos propietarios como o1 de OpenAI. Al recompensar las respuestas finales correctas y el formato, el algoritmo permitió que el modelo descubriera orgánicamente estrategias avanzadas de resolución de problemas sin necesidad de un ajuste fino exhaustivo con datos anotados por humanos.
Generación de código y lógica agente: Para los modelos que escriben código o impulsan flujos de trabajo agente autónomos, evaluar la corrección absoluta es un reto. GRPO permite a los modelos aprender ejecutando variaciones de código y puntuándolas de forma relativa basándose en el éxito de la compilación o en los casos de prueba superados, acelerando la implementación de asistentes de programación por IA altamente fiables.

Link to this sectionImplementación de conceptos de GRPO en PyTorch#

En esencia, GRPO calcula la ventaja relativa de las respuestas normalizando sus recompensas. Aquí tienes una implementación básica en PyTorch que demuestra esta normalización mediante operaciones con tensores estándar:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionAvanzando en la IA con optimización inteligente#

Del mismo modo que GRPO redefine la eficiencia en la generación de texto, las técnicas avanzadas de Aprendizaje Automático (ML) remodelan continuamente la percepción visual. La optimización de arquitecturas y funciones de pérdida permite a los desarrolladores crear modelos más ligeros y rápidos en todos los ámbitos.

Para las tareas de visión artificial de vanguardia, explorar optimizaciones de principio a fin es igualmente crítico. Por ejemplo, Ultralytics YOLO26 introduce una arquitectura nativa sin NMS y optimizadores híbridos inspirados en la investigación de LLM, mejorando drásticamente el despliegue en el borde. Los desarrolladores que busquen aprovechar flujos de trabajo eficientes de visión artificial pueden crear, entrenar y desplegar modelos sin esfuerzo utilizando la Plataforma Ultralytics. Esta herramienta basada en la nube simplifica la gestión de conjuntos de datos complejos y el ajuste de hiperparámetros para aplicaciones de visión robustas y en tiempo real.

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Group Relative Policy Optimization (GRPO)

Link to this sectionCómo se diferencia GRPO de PPO#

Link to this sectionAplicaciones reales de GRPO#

Link to this sectionImplementación de conceptos de GRPO en PyTorch#

Link to this sectionAvanzando en la IA con optimización inteligente#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!