Group Relative Policy Optimization (GRPO)

Descobre a Otimização de Política Relativa de Grupo (GRPO). Aprende como este algoritmo de RL eficiente em termos de memória e sem crítico melhora o raciocínio de LLM e reduz os custos de treino.

Group Relative Policy Optimization (GRPO) é um algoritmo de aprendizado por reforço eficiente em memória, desenvolvido para aprimorar as capacidades de raciocínio de Large Language Models (LLMs) e sistemas mais amplos de Inteligência Artificial (IA). Introduzido pela primeira vez no artigo DeepSeekMath de 2024, o GRPO melhora os métodos de otimização tradicionais ao eliminar a necessidade de uma rede de valor separada (modelo crítico). Em vez disso, ele normaliza as recompensas de um grupo de respostas geradas a partir do mesmo prompt. Ao avaliar as respostas em relação aos seus pares dentro do grupo, o GRPO reduz drasticamente a sobrecarga computacional enquanto aumenta o desempenho em tarefas de raciocínio complexas em arquiteturas modernas de Deep Learning (DL).

Link to this sectionComo o GRPO difere do PPO#

Embora o GRPO compartilhe semelhanças com o Proximal Policy Optimization (PPO) — um algoritmo de otimização padrão frequentemente usado em aprendizado por reforço a partir de feedback humano (RLHF) — os dois diferem significativamente na arquitetura. O PPO requer um modelo "crítico" secundário que roda paralelamente à rede de política principal para estimar o valor de um determinado estado. Isso quase dobra a memória necessária durante a fase de treinamento.

Em contraste, o GRPO é um algoritmo sem crítico. Ao amostrar múltiplas saídas para um único prompt e pontuá-las usando um sistema de recompensa baseado em regras ou verificador, o GRPO calcula a vantagem normalizando as pontuações dentro desse grupo específico. Essa comparação relativa atua como a linha de base, economizando as enormes quantidades de memória que seriam ocupadas por uma rede de valor e acelerando o treinamento de modelos em geral.

Link to this sectionAplicações reais do GRPO#

O GRPO impulsionou vários avanços recentes em IA generativa e processamento de linguagem natural. Duas aplicações notáveis incluem:

Modelos de raciocínio matemático: No amplamente citado lançamento DeepSeek-R1 e no DeepSeekMath, o GRPO foi usado para incentivar modelos a desenvolverem chain-of-thought de longo raciocínio e autoverificação, igualando o desempenho de modelos proprietários como o o1 da OpenAI. Ao recompensar respostas finais corretas e formatação, o algoritmo permitiu que o modelo descobrisse organicamente estratégias avançadas de resolução de problemas sem a necessidade de extensos fine-tuning em dados anotados por humanos.
Geração de código e lógica agentiva: Para modelos que escrevem código ou alimentam fluxos de trabalho agentivos autônomos, avaliar a correção absoluta é desafiador. O GRPO permite que os modelos aprendam executando variações de código e pontuando-as de forma relativa com base no sucesso da compilação ou em casos de teste aprovados, acelerando a implementação de assistentes de codificação por IA altamente confiáveis.

Link to this sectionImplementando conceitos de GRPO em PyTorch#

Em sua essência, o GRPO calcula a vantagem relativa das respostas normalizando suas recompensas. Aqui está uma implementação básica em PyTorch demonstrando essa normalização usando operações de tensor padrão:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionAvançando a IA com otimização inteligente#

Assim como o GRPO redefine a eficiência para a geração de texto, técnicas avançadas de Machine Learning (ML) remodelam continuamente a percepção visual. Otimizar arquiteturas e funções de perda permite que os desenvolvedores criem modelos mais leves e rápidos em todos os domínios.

Para tarefas de visão computacional de última geração, explorar otimizações ponta a ponta é igualmente crítico. Por exemplo, o Ultralytics YOLO26 introduz uma arquitetura nativamente livre de NMS e otimizadores híbridos inspirados em pesquisas de LLM, melhorando drasticamente a implementação na borda (edge). Desenvolvedores que buscam alavancar fluxos de trabalho eficientes de visão computacional podem criar, treinar e implementar modelos sem esforço usando a Ultralytics Platform. Esta ferramenta baseada em nuvem simplifica o gerenciamento complexo de datasets e o ajuste de hiperparâmetros para aplicações de visão robustas e em tempo real.

Group Relative Policy Optimization (GRPO)

Link to this sectionComo o GRPO difere do PPO#

Link to this sectionAplicações reais do GRPO#

Link to this sectionImplementando conceitos de GRPO em PyTorch#

Link to this sectionAvançando a IA com otimização inteligente#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!