Group Relative Policy Optimization (GRPO)
Descobre a Otimização de Política Relativa ao Grupo (GRPO). Aprende como este algoritmo de RL eficiente em termos de memória e sem crítico melhora o raciocínio de LLM e reduz os custos de treino.
Group Relative Policy Optimization (GRPO) é um algoritmo de aprendizado por reforço eficiente em termos de memória, desenvolvido para aprimorar as capacidades de raciocínio de Large Language Models (LLMs) e sistemas mais amplos de Artificial Intelligence (AI). Introduzido inicialmente no artigo DeepSeekMath de 2024, o GRPO melhora os métodos de otimização tradicionais ao eliminar a necessidade de uma rede de valor separada (modelo crítico). Em vez disso, ele normaliza as recompensas de um grupo de respostas geradas a partir do mesmo prompt. Ao avaliar as respostas em relação aos seus pares dentro do grupo, o GRPO reduz drasticamente a sobrecarga computacional enquanto aumenta o desempenho em tarefas complexas de raciocínio em arquiteturas modernas de Deep Learning (DL).
Como o GRPO difere do PPO
Embora o GRPO compartilhe semelhanças com a Proximal Policy Optimization (PPO) — um algoritmo de otimização padrão frequentemente usado no aprendizado por reforço com feedback humano (RLHF) —, os dois diferem significativamente na arquitetura. O PPO requer um modelo "crítico" secundário que roda em paralelo à rede de política principal para estimar o valor de um determinado estado. Isso quase dobra a memória necessária durante a fase de treinamento.
Em contrapartida, o GRPO é um algoritmo sem crítico. Ao amostrar múltiplas saídas para um único prompt e pontuá-las usando um sistema de recompensa baseado em regras ou verificador, o GRPO calcula a vantagem normalizando as pontuações dentro desse grupo específico. Essa comparação relativa atua como a base, economizando as enormes quantidades de memória que seriam ocupadas por uma rede de valor e acelerando o treinamento do modelo como um todo.
Aplicações reais do GRPO
O GRPO impulsionou vários avanços recentes em IA generativa e processamento de linguagem natural. Duas aplicações notáveis incluem:
- Modelos de raciocínio matemático: No amplamente citado lançamento do DeepSeek-R1 e no DeepSeekMath, o GRPO foi usado para incentivar os modelos a desenvolverem um raciocínio longo de chain-of-thought e autoverificação, igualando o desempenho de modelos proprietários como o o1 da OpenAI. Ao recompensar respostas finais corretas e a formatação, o algoritmo permitiu que o modelo descobrisse organicamente estratégias avançadas de resolução de problemas sem a necessidade de um fine-tuning extensivo em dados anotados por humanos.
- Geração de código e lógica agentiva: Para modelos que escrevem código ou alimentam fluxos de trabalho agentivos autônomos, avaliar a correção absoluta é desafiador. O GRPO permite que os modelos aprendam executando variações de código e pontuando-as de forma relativa com base no sucesso da compilação ou nos casos de teste aprovados, acelerando a implementação de assistentes de codificação de IA altamente confiáveis.
Implementando conceitos de GRPO em PyTorch
Em sua essência, o GRPO calcula a vantagem relativa das respostas normalizando suas recompensas. Aqui está uma implementação básica em PyTorch demonstrando essa normalização usando operações de tensor padrão:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesAvançando a IA com otimização inteligente
Assim como o GRPO redefine a eficiência para a geração de texto, técnicas avançadas de Machine Learning (ML) remodelam continuamente a percepção visual. Otimizar arquiteturas e funções de perda permite que os desenvolvedores criem modelos mais leves e rápidos em todos os domínios.
Para tarefas de visão computacional de ponta, explorar otimizações de ponta a ponta é igualmente crítico. Por exemplo, o Ultralytics YOLO26 apresenta uma arquitetura nativamente livre de NMS e otimizadores híbridos inspirados em pesquisas de LLM, melhorando drasticamente a implantação na borda. Desenvolvedores que buscam alavancar fluxos de trabalho eficientes de visão computacional podem construir, treinar e implantar modelos sem esforço usando a Ultralytics Platform. Esta ferramenta baseada em nuvem simplifica o gerenciamento complexo de datasets e o ajuste de hiperparâmetros para aplicações de visão robustas em tempo real.






