Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Group Relative Policy Optimization (GRPO)

Descubre la optimización de políticas relativas al grupo (GRPO). Aprende cómo este algoritmo de RL eficiente en memoria y sin crítico mejora el razonamiento de LLM y reduce los costes de formación.

La Optimización de Política Relativa de Grupo (GRPO) es un algoritmo de aprendizaje por refuerzo eficiente en memoria, desarrollado para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Extensos (LLM) y sistemas de Inteligencia Artificial (IA) más amplios. Presentado por primera vez en el artículo de DeepSeekMath de 2024, GRPO mejora los métodos de optimización tradicionales al eliminar la necesidad de una red de valor separada (modelo crítico). En su lugar, normaliza las recompensas de un grupo de respuestas generadas a partir del mismo prompt. Al evaluar las respuestas en relación con sus pares dentro del grupo, GRPO reduce drásticamente la sobrecarga computacional mientras potencia el rendimiento en tareas de razonamiento complejo en arquitecturas modernas de Aprendizaje Profundo (DL).

En qué se diferencia GRPO de PPO

Aunque GRPO comparte similitudes con la Optimización de Política Proximal (PPO)—un algoritmo de optimización estándar usado a menudo en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF)—ambos difieren significativamente en su arquitectura. PPO requiere un modelo "crítico" secundario que se ejecuta en paralelo a la red de políticas principal para estimar el valor de un estado dado. Esto casi duplica la memoria requerida durante la fase de entrenamiento.

Por el contrario, GRPO es un algoritmo sin crítico. Al muestrear múltiples resultados para un solo prompt y puntuarlos usando un sistema de recompensa basado en reglas o verificador, GRPO calcula la ventaja normalizando las puntuaciones dentro de ese grupo específico. Esta comparación relativa actúa como línea base, ahorrando la enorme cantidad de memoria que habría ocupado una red de valor y acelerando el entrenamiento del modelo en general.

Aplicaciones en el mundo real de GRPO

GRPO ha impulsado varios avances recientes en IA generativa y procesamiento de lenguaje natural. Dos aplicaciones destacables incluyen:

  1. Modelos de razonamiento matemático: En el ampliamente citado lanzamiento de DeepSeek-R1 y DeepSeekMath, se utilizó GRPO para incentivar a los modelos a desarrollar un razonamiento de cadena de pensamiento largo y de autoverificación, igualando el rendimiento de modelos propietarios como o1 de OpenAI. Al recompensar las respuestas finales correctas y el formato, el algoritmo permitió al modelo descubrir orgánicamente estrategias avanzadas de resolución de problemas sin un ajuste fino extenso en datos anotados por humanos.
  2. Generación de código y lógica agente: Para los modelos que escriben código o impulsan flujos de trabajo agentes autónomos, evaluar la corrección absoluta es un desafío. GRPO permite a los modelos aprender ejecutando variantes de código y puntuándolas de forma relativa según el éxito de compilación o los casos de prueba superados, acelerando el despliegue de asistentes de programación por IA altamente fiables.

Implementación de conceptos de GRPO en PyTorch

En esencia, GRPO calcula la ventaja relativa de las respuestas normalizando sus recompensas. Aquí tienes una implementación básica en PyTorch que demuestra esta normalización utilizando operaciones de tensores estándar:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Avanzando en la IA con optimización inteligente

Al igual que GRPO redefine la eficiencia para la generación de texto, las técnicas avanzadas de Aprendizaje Automático (ML) remodelan continuamente la percepción visual. La optimización de arquitecturas y funciones de pérdida permite a los desarrolladores crear modelos más ligeros y rápidos en todos los dominios.

Para tareas de visión artificial de vanguardia, explorar optimizaciones de extremo a extremo es igualmente crítico. Por ejemplo, Ultralytics YOLO26 introduce una arquitectura nativamente libre de NMS y optimizadores híbridos inspirados en la investigación de LLM, mejorando drásticamente el despliegue en el borde (edge). Los desarrolladores que busquen aprovechar flujos de trabajo eficientes de visión artificial pueden construir, entrenar y desplegar modelos sin esfuerzo usando la Plataforma Ultralytics. Esta herramienta basada en la nube simplifica la gestión de datasets complejos y el ajuste de hiperparámetros para aplicaciones de visión robustas y en tiempo real.

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Integra la visión artificial en la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el rastreo de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en la automoción con modelos Ultralytics YOLO. La visión artificial mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Desarrolla soluciones de atención sanitaria con los modelos de Ultralytics YOLO. La IA de visión en el ámbito sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la monitorización de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La visión por IA en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con modelos de Ultralytics YOLO. La visión por IA impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPP y la automatización de las líneas de montaje.

Más información
Real-time AI that works with your team

IA en logística

Agiliza la logística con los modelos de Ultralytics YOLO. La visión por IA permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y el monitoreo de la seguridad en el almacén en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático