Group Relative Policy Optimization (GRPO)
Group Relative Policy Optimization (GRPO) kavramını keşfet. Bu bellek dostu, critic-free RL algoritmasının LLM mantık yürütmesini nasıl geliştirdiğini ve eğitim maliyetlerini nasıl düşürdüğünü öğren.
Group Relative Policy Optimization (GRPO) is a memory-efficient reinforcement learning algorithm developed to enhance the reasoning capabilities of Large Language Models (LLMs) and broader Artificial Intelligence (AI) systems. First introduced in the 2024 DeepSeekMath paper, GRPO improves upon traditional optimization methods by removing the need for a separate value network (critic model). Instead, it normalizes the rewards of a group of generated responses derived from the same prompt. By evaluating responses relative to their peers within the group, GRPO dramatically reduces computational overhead while boosting performance on complex reasoning tasks in modern Deep Learning (DL) architectures.
GRPO, PPO'dan Nasıl Farklıdır?
While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.
Buna karşılık GRPO, eleştirmen içermeyen bir algoritmadır. Tek bir istem için birden fazla çıktı örnekleyip bunları kural tabanlı bir ödül sistemi veya doğrulayıcı kullanarak puanlayan GRPO, avantajı bu belirli grup içindeki puanları normalleştirerek hesaplar. Bu göreceli karşılaştırma bir temel oluşturur ve bir değer ağının işgal edeceği muazzam miktardaki bellekten tasarruf sağlayarak genel model eğitimini hızlandırır.
GRPO'nun Gerçek Dünya Uygulamaları
GRPO, üretken yapay zeka ve doğal dil işleme alanlarındaki bazı son gelişmelere yön vermiştir. Dikkat çeken iki uygulama şunlardır:
- Matematiksel Akıl Yürütme Modelleri: Yaygın olarak atıfta bulunulan DeepSeek-R1 sürümü ve DeepSeekMath'te GRPO, modelleri uzun düşünce zinciri akıl yürütme ve kendi kendini doğrulama süreçleri geliştirmeye teşvik etmek için kullanılmış ve OpenAI'ın o1 gibi tescilli modellerin performansına ulaşmıştır. Doğru nihai cevapları ve biçimlendirmeyi ödüllendiren algoritma, modelin insan tarafından açıklanmış veriler üzerinde kapsamlı bir ince ayar yapılmasına gerek kalmadan gelişmiş problem çözme stratejilerini organik olarak keşfetmesini sağlamıştır.
- Kod Oluşturma ve Agentic Mantık: Kod yazan veya otonom agentic iş akışlarına güç veren modeller için mutlak doğruluğu değerlendirmek zordur. GRPO, modellerin kod varyasyonlarını çalıştırarak ve bunları derleme başarısına veya geçilen test senetlerine göre göreceli olarak puanlayarak öğrenmelerine olanak tanır, böylece son derece güvenilir yapay zeka kodlama asistanlarının dağıtımını hızlandırır.
PyTorch ile GRPO Kavramlarını Uygulama
At its core, GRPO calculates the relative advantage of responses by normalizing their rewards. Here is a basic PyTorch implementation demonstrating this normalization using standard tensor operations:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesAkıllı Optimizasyon ile Yapay Zekayı Geliştirmek
GRPO metin üretimi için verimliliği nasıl yeniden tanımlıyorsa, gelişmiş Makine Öğrenimi (ML) teknikleri de görsel algıyı sürekli olarak yeniden şekillendiriyor. Mimarileri ve kayıp fonksiyonlarını optimize etmek, geliştiricilerin tüm alanlarda daha hafif ve daha hızlı modeller oluşturmasına olanak tanır.
En son teknoloji bilgisayarlı görü görevleri için uçtan uca optimizasyonları keşfetmek de aynı derecede kritiktir. Örneğin, Ultralytics YOLO26 yerel olarak NMS içermeyen bir mimari ve LLM araştırmalarından esinlenen hibrit optimize ediciler sunarak uç cihazda dağıtımı önemli ölçüde iyileştirir. Verimli bilgisayarlı görü iş akışlarından yararlanmak isteyen geliştiriciler, Ultralytics Platform kullanarak modelleri zahmetsizce oluşturabilir, eğitebilir ve dağıtabilirler. Bu bulut tabanlı araç, sağlam ve gerçek zamanlı görü uygulamaları için karmaşık veri kümesi yönetimini ve hiperparametre ayarlamasını basitleştirir.






