Group Relative Policy Optimization (GRPO)

Grup Göreli Politika Optimizasyonunu (GRPO) keşfet. Bu bellek dostu ve eleştirmensiz RL algoritmasının LLM akıl yürütmesini nasıl geliştirdiğini ve eğitim maliyetlerini nasıl düşürdüğünü öğren.

Group Relative Policy Optimization (GRPO) is a memory-efficient reinforcement learning algorithm developed to enhance the reasoning capabilities of Large Language Models (LLMs) and broader Artificial Intelligence (AI) systems. First introduced in the 2024 DeepSeekMath paper, GRPO improves upon traditional optimization methods by removing the need for a separate value network (critic model). Instead, it normalizes the rewards of a group of generated responses derived from the same prompt. By evaluating responses relative to their peers within the group, GRPO dramatically reduces computational overhead while boosting performance on complex reasoning tasks in modern Deep Learning (DL) architectures.

Link to this sectionGRPO, PPO'dan Nasıl Farklıdır#

While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.

Buna karşılık GRPO, eleştirmen içermeyen bir algoritmadır. Tek bir istem için birden fazla çıktı örnekleyip bunları kural tabanlı bir ödül sistemi veya doğrulayıcı kullanarak puanlayan GRPO, avantajı bu gruptaki puanları normalleştirerek hesaplar. Bu göreli karşılaştırma temel çizgisi işlevi görür ve bir değer ağının işgal edeceği büyük miktardaki bellekten tasarruf sağlayarak genel model eğitimini hızlandırır.

Link to this sectionGRPO'nun Gerçek Dünya Uygulamaları#

GRPO, üretken yapay zeka ve doğal dil işleme alanlarındaki birçok yeni buluşa öncülük etmiştir. Önemli iki uygulama şunlardır:

Matematiksel Akıl Yürütme Modelleri: Çokça atıfta bulunulan DeepSeek-R1 sürümünde ve DeepSeekMath'te GRPO, modelleri uzun düşünce zinciri akıl yürütme ve kendi kendini doğrulama süreçleri geliştirmeye teşvik etmek için kullanılmış ve OpenAI'ın o1'i gibi tescilli modellerin performansına ulaşmıştır. Doğru nihai yanıtları ve biçimlendirmeyi ödüllendiren algoritma, modelin insan tarafından etiketlenmiş veriler üzerinde kapsamlı ince ayar yapılmasına gerek kalmadan gelişmiş problem çözme stratejilerini organik olarak keşfetmesini sağlamıştır.
Kod Oluşturma ve Ajan Tabanlı Mantık: Kod yazan veya otonom ajan tabanlı iş akışlarını destekleyen modeller için mutlak doğruluğu değerlendirmek zordur. GRPO, modellerin kod varyasyonlarını çalıştırarak ve bunları derleme başarısına veya geçen test durumlarına göre göreli olarak puanlayarak öğrenmelerine olanak tanır ve böylece son derece güvenilir yapay zeka kodlama asistanlarının dağıtımını hızlandırır.

Link to this sectionPyTorch İçerisinde GRPO Kavramlarını Uygulama#

At its core, GRPO calculates the relative advantage of responses by normalizing their rewards. Here is a basic PyTorch implementation demonstrating this normalization using standard tensor operations:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionAkıllı Optimizasyon ile Yapay Zekayı İlerletmek#

GRPO metin üretimi için verimliliği yeniden tanımladığı gibi, gelişmiş Makine Öğrenmesi (ML) teknikleri de görsel algıyı sürekli olarak yeniden şekillendirir. Mimarileri ve kayıp fonksiyonlarını optimize etmek, geliştiricilerin tüm alanlarda daha hafif ve daha hızlı modeller oluşturmasına olanak tanır.

En son teknoloji bilgisayarlı görü görevleri için uçtan uca optimizasyonları keşfetmek aynı derecede kritiktir. Örneğin, Ultralytics YOLO26 doğal olarak NMS içermeyen bir mimari ve LLM araştırmalarından esinlenen hibrit iyileştiriciler sunarak uç cihaz dağıtımını ciddi oranda iyileştirir. Verimli bilgisayarlı görü iş akışlarından yararlanmak isteyen geliştiriciler, Ultralytics Platform kullanarak modelleri zahmetsizce oluşturabilir, eğitebilir ve dağıtabilir. Bu bulut tabanlı araç, sağlam ve gerçek zamanlı görü uygulamaları için karmaşık veri kümesi yönetimini ve hiperparametre ayarını basitleştirir.

Group Relative Policy Optimization (GRPO)

Link to this sectionGRPO, PPO'dan Nasıl Farklıdır#

Link to this sectionGRPO'nun Gerçek Dünya Uygulamaları#

Link to this sectionPyTorch İçerisinde GRPO Kavramlarını Uygulama#

Link to this sectionAkıllı Optimizasyon ile Yapay Zekayı İlerletmek#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!