Yolo 深圳
深セン
今すぐ参加
用語集

報酬モデリング

機械学習における報酬モデリングを探求する。人間のフィードバックを活用し、Ultralytics モデルを連携させる手法を学び、より安全で正確なパフォーマンスを実現する。

報酬モデリングは、人工知能システムが人間の選好に基づいて自身の行動を評価し優先順位を付ける方法を学習させる機械学習技術である。従来の強化学習環境では、AIエージェントはビデオゲームのスコアのように、事前に定義された数学的に厳密な報酬関数を最大化することで学習します。しかし、丁寧なメールの作成や交差点の安全な横断など、「良い」行動が主観的または微妙なニュアンスを持つ複雑な現実世界のタスクでは、完璧な報酬関数を手作業で記述することはほぼ不可能です。 報酬モデリングはこの課題を解決する。二次的なニューラルネットワーク(報酬モデル)を訓練し、人間の判断の代理として機能させるのだ。このモデルは主AIの出力を評価しスカラースコアを割り当て、安全で有用かつ正確な行動へ主モデルを動的に導く。

報酬モデリングの仕組み

報酬モデル構築のパイプラインは、高品質な人間によるフィードバックの収集に大きく依存している。

  • データラベリングと設定: 人間のアノテーターには、AIモデルが生成した複数の応答と共にプロンプトが提示されます。評価者はこれらの応答を、有用性、無害性、正確性などの基準に基づいて最良から最悪までランク付けします。このような大規模なアノテーションワークフローの管理は、Ultralytics を使用してシームレスに処理できます。
  • プロキシネットワークの訓練:人間の比較データセットを用いて、専用のニューラルネットワークを訓練します。最適化プロセスを通じて、人間の好む出力を予測することを学習し、アクションやテキスト応答の埋め込みを単一のスカラ報酬値にマッピングします。ニューラルネットワークアーキテクチャの構築については、PyTorch ドキュメントで詳細を確認できます。
  • ポリシー最適化:主モデルは報酬モデルからの連続的なフィードバックを用いて行動を洗練し、 通常は近似ポリシー最適化(PPO)などのアルゴリズムを利用する。 このステップでは、モデルのポリシーを学習した人間の意図に反復的に整合させる。

報酬モデリング対RLHF

報酬モデリングと人間からのフィードバックを用いた強化学習(RLHF)を区別することが重要です。両者は頻繁に一緒に議論されますが、同義ではありません。RLHFは、教師あり微調整、データ収集、ポリシー更新を含む、モデルを調整するための包括的なエンドツーエンドのパイプラインです。 報酬モデリングはRLHFパイプライン内の特定かつ重要な構成要素である。これは離散的な人間の評価を、強化学習アルゴリズムが最適化対象とできる連続的な数学的信号に変換する橋渡し役として機能する。

実際のアプリケーション

報酬モデリングは、人間や物理世界と直接対話する現代のAIシステムを開発する上で極めて重要である。

  • 大規模言語モデル(LLMs) 対話型AIアシスタントは、回答が事実的に正確であるだけでなく、 礼儀正しく、関連性があり、有害な言語を含まないことを保証するために報酬モデルに依存しています。 AIの安全性を模索する組織は、 有益で無害なAIアラインメントを反映したシステムを構築するため、 報酬モデリングを継続的に進化させています。
  • 自律走行車とロボティクス: 物理的自動化において、報酬モデルはロボットが複雑な運転マナーや物体操作戦略を理解するのに役立つ。 Ultralytics 駆動される知覚システムはdetect 道路標識detect 、 報酬モデルは車両の計画された軌跡を評価することで、AIが乗客の快適性と安全性を、 純粋に攻撃的な地点間ナビゲーションよりも優先させることを保証する。

基本的な報酬モデル概念の実装

Python 、以下を使用します。 torch 報酬モデルの基礎構造を示す。 実際には、このネットワークは人間の選好と一致する出力に対してより高いスカラースコアを割り当てることを学習する。

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

オープンソース基盤モデルにおけるアラインメントの影響を深く理解するには、 言語モデルと人間の意図を整合させる基礎研究を探求し、 コンピュータビジョン(CV)システムが高度なフィードバックループを活用して 動的な環境と安全に相互作用する方法を学びましょう。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加