YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Process Reward Model (PRM)

プロセス報酬モデル (PRM) がどのようにAIの推論を改善するかを探ります。RLHFにおけるステップレベルのフィードバックが、どのようにLLMおよびUltralytics YOLO26に対して論理的かつ安全なパスを保証するかを学びましょう。

複雑な 人工知能 (AI) モデルの評価には、最終的な回答が正しいかどうかを確認する以上のことが求められます。非常に専門的な 強化学習 手法を用いると、AIがタスク実行中に行う各中間ステップに対して数学的なスコアが割り当てられ、高密度なステップレベルのフィードバック が提供されます。このきめ細やかなアプローチにより、モデルは正しい目的地に到達するだけでなく、そこに到達するまでの論理的で安全かつ検証可能なパスを辿ることが保証されます。

Link to this sectionプロセス報酬モデルと結果報酬モデルの比較#

報酬モデリング の広範な文脈において、プロセスベースの監督と結果ベースの監督を区別することが重要です。従来の結果報酬モデル (ORM) は、生成の最後に一度だけ疎な報酬を提供します。ORMは学習が容易である一方、複雑なタスクにおいては重大な欠点があります。それは、欠陥のある論理や ハルシネーション を通じて正しい答えにたどり着いたモデルを誤って評価してしまう可能性があるという点です。

A Process Reward Model (PRM) solves this by evaluating the entire reasoning trajectory. As popularized by foundational OpenAI research in papers like Let's Verify Step by Step, a PRM applies stepwise supervision to each thought or action. This is a critical component of advanced Reinforcement Learning from Human Feedback (RLHF) pipelines, as it actively guides policy optimization using algorithms like Proximal Policy Optimization (PPO).

Link to this section実際の応用例#

PRMは、大規模言語モデル (LLM) や自律システムがリスクの高い環境でどのように動作するかを変革しています:

  • 数学的推論: PRMは方程式を一行ずつ評価することで、モデルが Best-of-N (BoN) サンプリングモンテカルロ木探索 (MCTS) などのアルゴリズムを使用して複数の解法パスを探索し、論理的に最も健全なシーケンスを選択できるようにします。
  • コード生成: ソフトウェアを生成する際、最終的なスクリプトが実行できるかを確認するだけでは不十分です。PRMはプロセス監督を提供し、個々の関数やロジックブロックをスコアリングすることで、コードの効率性、安全性、および保守性を保証します。
  • Operations Research and Visual Agents: Recent advances in 2025 and 2026 have expanded PRMs beyond text. For example, operations research now utilizes PRMs to validate complex scheduling algorithms. Similarly, visual AI agents equipped with robust computer vision engines like Ultralytics YOLO26 receive step-by-step rewards for navigating physical environments, rather than just a single reward for reaching a destination.

Link to this sectionステップレベルのフィードバックの実装#

PRMの学習には、各サブステップが人間やより強力なAIモデルによって評価される大規模なデータセットの管理が必要です。こうした集中的な データアノテーション ワークフローの管理は、プロジェクトの編成やデプロイを効率化する Ultralytics Platform のようなクラウドベースのツールを使うことで簡素化されます。

推論時や モデル最適化 において、PRMは一連のステップに基づいて累積損失や報酬を計算します。torch を使用した以下の概念的なPythonスニペットは、中間ステップが失敗した場合にどのようにステップレベルの報酬がペナルティを受けるかを示しており、これは PyTorchのドキュメント に見られるシーケンススコアリングの一般的な手法です:

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

すべての中間ステップが期待される挙動と一致していることを確認することで、開発者は信頼性の高いシステムをデプロイできます。プロセスレベルの監督と継続的な ハイパーパラメータチューニング を組み合わせることで、次世代モデルは問題を安全かつ効果的に推論できるようになります。

Explore solutions

Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう