YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Group Relative Policy Optimization (GRPO)

Group Relative Policy Optimization (GRPO) について解説します。このメモリ効率に優れたクリティク不要の強化学習アルゴリズムが、どのようにLLMの推論能力を向上させ、学習コストを削減するのかを学びましょう。

Group Relative Policy Optimization (GRPO) is a memory-efficient reinforcement learning algorithm developed to enhance the reasoning capabilities of Large Language Models (LLMs) and broader Artificial Intelligence (AI) systems. First introduced in the 2024 DeepSeekMath paper, GRPO improves upon traditional optimization methods by removing the need for a separate value network (critic model). Instead, it normalizes the rewards of a group of generated responses derived from the same prompt. By evaluating responses relative to their peers within the group, GRPO dramatically reduces computational overhead while boosting performance on complex reasoning tasks in modern Deep Learning (DL) architectures.

GRPO と PPO の違い

While GRPO shares similarities with Proximal Policy Optimization (PPO)—a standard optimization algorithm often used in reinforcement learning from human feedback (RLHF)—the two differ significantly in architecture. PPO requires a secondary "critic" model that runs parallel to the main policy network to estimate the value of a given state. This nearly doubles the memory required during the training phase.

対照的に、GRPO はクリティックを必要としないアルゴリズムです。単一のプロンプトに対して複数の出力をサンプリングし、ルールベースの報酬システム や検証器を使用してそれらをスコアリングすることで、GRPO はその特定のグループ内でスコアを正規化してアドバンテージを計算します。この相対的な比較がベースラインとして機能するため、値ネットワークが消費していた膨大なメモリを節約し、全体的な モデル学習 を加速させます。

GRPO の実用的な応用

GRPO は、生成 AI および 自然言語処理 における近年のいくつかのブレークスルーを推進してきました。注目すべき2つの応用例を挙げます:

  1. 数学的推論モデル: 広く引用されている DeepSeek-R1 リリース や DeepSeekMath において、GRPO はモデルが長い 思考の連鎖 (Chain-of-Thought) による推論や自己検証を行うよう促すために使用され、OpenAI の o1 のような独自モデルと同等のパフォーマンスを達成しました。正しい最終回答と形式に報酬を与えることで、このアルゴリズムは、人間が注釈を付けたデータでの広範な ファインチューニング を行うことなく、モデルが高度な問題解決戦略を自発的に発見することを可能にしました。
  2. コード生成とエージェントロジック: コードを記述したり、自律的な エージェントワークフロー を動かしたりするモデルにとって、絶対的な正確さを評価することは困難です。GRPO を使用すると、モデルはコードのバリエーションを実行し、コンパイルの成功やテストケースの通過に基づいて相対的にスコアリングを行うことで学習できるため、信頼性の高い AI コーディングアシスタントの導入が加速します。

PyTorch での GRPO コンセプトの実装

At its core, GRPO calculates the relative advantage of responses by normalizing their rewards. Here is a basic PyTorch implementation demonstrating this normalization using standard tensor operations:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

スマートな最適化による AI の進化

GRPO がテキスト生成の効率を再定義するように、高度な 機械学習 (ML) 手法は 視覚認識 を継続的に再形成しています。アーキテクチャと 損失関数 を最適化することで、開発者はあらゆるドメインでより軽量で高速なモデルを構築できます。

最先端の コンピュータビジョンのタスク にとって、エンドツーエンドの最適化を探求することは同様に重要です。例えば、Ultralytics YOLO26 は、LLM 研究に触発されたネイティブな NMS フリーアーキテクチャと ハイブリッドオプティマイザ を導入しており、エッジ導入を劇的に改善しています。効率的な コンピュータビジョン ワークフローを活用したい開発者は、Ultralytics Platform を使用して、モデルの構築、学習、導入を簡単に行うことができます。このクラウドベースのツールは、堅牢なリアルタイムビジョンアプリケーションのための複雑なデータセット管理や ハイパーパラメータチューニング を簡素化します。

Explore solutions

Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

自動車産業にUltralytics YOLOモデルを用いたコンピュータビジョンを適用します。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるVision AIは、医療画像の迅速化、診断のスマート化、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルで小売を再構築しましょう。Vision AIは、在庫追跡、棚モニタリング、行列管理、よりスマートな顧客インサイトを推進します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートな機械を実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化します。Vision AIは、品質管理、欠陥検出、PPE(個人用保護具)のコンプライアンス、組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、パッケージ検査、仕分け、車両追跡、リアルタイムの倉庫安全監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

自動車産業にUltralytics YOLOモデルを用いたコンピュータビジョンを適用します。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるVision AIは、医療画像の迅速化、診断のスマート化、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルで小売を再構築しましょう。Vision AIは、在庫追跡、棚モニタリング、行列管理、よりスマートな顧客インサイトを推進します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートな機械を実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化します。Vision AIは、品質管理、欠陥検出、PPE(個人用保護具)のコンプライアンス、組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、パッケージ検査、仕分け、車両追跡、リアルタイムの倉庫安全監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

自動車産業にUltralytics YOLOモデルを用いたコンピュータビジョンを適用します。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるVision AIは、医療画像の迅速化、診断のスマート化、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売におけるAI

Ultralytics YOLOモデルで小売を再構築しましょう。Vision AIは、在庫追跡、棚モニタリング、行列管理、よりスマートな顧客インサイトを推進します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートな機械を実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化します。Vision AIは、品質管理、欠陥検出、PPE(個人用保護具)のコンプライアンス、組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、パッケージ検査、仕分け、車両追跡、リアルタイムの倉庫安全監視が可能になります。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう