機械学習における報酬モデリングを探求する。人間のフィードバックを活用し、Ultralytics モデルを連携させる手法を学び、より安全で正確なパフォーマンスを実現する。
報酬モデリングは、人工知能システムが人間の選好に基づいて自身の行動を評価し優先順位を付ける方法を学習させる機械学習技術である。従来の強化学習環境では、AIエージェントはビデオゲームのスコアのように、事前に定義された数学的に厳密な報酬関数を最大化することで学習します。しかし、丁寧なメールの作成や交差点の安全な横断など、「良い」行動が主観的または微妙なニュアンスを持つ複雑な現実世界のタスクでは、完璧な報酬関数を手作業で記述することはほぼ不可能です。 報酬モデリングはこの課題を解決する。二次的なニューラルネットワーク(報酬モデル)を訓練し、人間の判断の代理として機能させるのだ。このモデルは主AIの出力を評価しスカラースコアを割り当て、安全で有用かつ正確な行動へ主モデルを動的に導く。
報酬モデル構築のパイプラインは、高品質な人間によるフィードバックの収集に大きく依存している。
報酬モデリングと人間からのフィードバックを用いた強化学習(RLHF)を区別することが重要です。両者は頻繁に一緒に議論されますが、同義ではありません。RLHFは、教師あり微調整、データ収集、ポリシー更新を含む、モデルを調整するための包括的なエンドツーエンドのパイプラインです。 報酬モデリングはRLHFパイプライン内の特定かつ重要な構成要素である。これは離散的な人間の評価を、強化学習アルゴリズムが最適化対象とできる連続的な数学的信号に変換する橋渡し役として機能する。
報酬モデリングは、人間や物理世界と直接対話する現代のAIシステムを開発する上で極めて重要である。
Python 、以下を使用します。 torch 報酬モデルの基礎構造を示す。
実際には、このネットワークは人間の選好と一致する出力に対してより高いスカラースコアを割り当てることを学習する。
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
オープンソース基盤モデルにおけるアラインメントの影響を深く理解するには、 言語モデルと人間の意図を整合させる基礎研究を探求し、 コンピュータビジョン(CV)システムが高度なフィードバックループを活用して 動的な環境と安全に相互作用する方法を学びましょう。