YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

報酬モデリング

機械学習における報酬モデリングを探ります。より安全で正確なパフォーマンスのために、人間のフィードバックを使用してAIエージェントとUltralytics YOLO26モデルをどのように調整するかを学びましょう。

報酬モデリングは、人間の好みに基づいて人工知能システムが自身の行動を評価し、優先順位を付ける方法を教えるために使用される機械学習技術です。従来の強化学習環境では、AIエージェントは、ビデオゲームのスコアのように、事前定義された数学的に厳密な報酬関数を最大化することで学習します。しかし、丁寧なメールの作成や交差点の安全なナビゲートなど、「良い」行動が主観的または微妙である複雑な実世界タスクでは、完璧な報酬関数を手作業で書くことはほぼ不可能です。報酬モデリングは、人間の判断の代理として機能する二次的なニューラルネットワーク(報酬モデル)をトレーニングすることでこれを解決します。このモデルは、主要なAIの出力を評価し、スカラー値を割り当てて、メインモデルを安全で、役立つ、正確な行動へと動的に導きます。

報酬モデリングはどのように機能するか

報酬モデルを構築するためのパイプラインは、高品質な人間のフィードバックの収集に大きく依存しています。

  • データラベリングと選好: 人間のアノテーターは、AIモデルによって生成された複数の応答とともにプロンプトを与えられます。評価者は、有用性、無害性、正確性などの基準に基づいて、これらの応答を最良から最悪へとランク付けします。これらの大規模なアノテーションワークフローの管理は、Ultralytics Platformを使用してシームレスに処理できます。
  • プロキシネットワークの学習: 人間による比較のデータセットで、特殊なニューラルネットワークが学習されます。最適化プロセスを通じて、人間がどちらの出力を好むかを予測することを学習し、アクションまたはテキスト応答の埋め込みを単一のスカラー報酬値にマッピングします。ニューラルネットワークアーキテクチャの構築については、PyTorch APIドキュメントで詳しく読むことができます。
  • 方策最適化: プライマリモデルは、報酬モデルからの継続的なフィードバックを使用してそのアクションを洗練し、通常、近接方策最適化 (PPO)のようなアルゴリズムを利用します。このステップは、モデルの方策を学習された人間の意図に繰り返し合わせます。

報酬モデリング vs. RLHF

報酬モデリングを人間からのフィードバックによる強化学習(RLHF)と区別することが重要です。これら2つの用語は頻繁に一緒に議論されますが、同義ではありません。RLHFは、教師ありファインチューニング、データ収集、ポリシー更新を含む、モデルをアラインするための包括的なエンドツーエンドのパイプラインです。報酬モデリングは、RLHFパイプライン内の特定の重要なコンポーネントです。これは、離散的な人間のランキングを、強化学習アルゴリズムが最適化できる連続的な数学的信号に変換する橋渡しとして機能します。

実際のアプリケーション

報酬モデリングは、人間や物理世界と直接対話する現代のAIシステムを開発する上で不可欠です。

  • 大規模言語モデル (LLM): 会話型AIアシスタントは、回答が事実に基づいているだけでなく、丁寧で、適切で、有害な言葉を含まないことを保証するために報酬モデルに依存しています。AIの安全性を探求する組織は、有益で無害なAIアライメントを反映するシステムを構築するために、報酬モデリングを継続的に進歩させています。
  • Autonomous Vehicles and Robotics: 物理的自動化において、報酬モデルはロボットが複雑な運転マナーや物体操作戦略を理解するのに役立ちます。 Ultralytics YOLO26を搭載した知覚システムは歩行者や道路標識をdetectする一方、 報酬モデルは車両の計画された軌道を評価し、AIが純粋に攻撃的なポイントツーポイントナビゲーションよりも乗客の快適性と安全性を優先するようにします。

基本的な報酬モデルの概念の実装

以下のpythonの例は、 torch 報酬モデルの基礎構造を示すため。実際には、このネットワークは人間の好みに合致する出力に対して、より高いスカラー値を割り当てることを学習します。

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

アライメントがオープンソースの基盤モデルにどのように影響するかについてさらに深く掘り下げるには、言語モデルを人間の意図に合わせることに関する基礎研究を探求し、コンピュータービジョン (CV)システムが高度なフィードバックループを活用して動的な環境と安全に相互作用する方法を学びましょう。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。