機械学習における報酬モデリングを探ります。より安全で正確なパフォーマンスのために、人間のフィードバックを使用してAIエージェントとUltralytics YOLO26モデルをどのように調整するかを学びましょう。
報酬モデリングは、人間の好みに基づいて人工知能システムが自身の行動を評価し、優先順位を付ける方法を教えるために使用される機械学習技術です。従来の強化学習環境では、AIエージェントは、ビデオゲームのスコアのように、事前定義された数学的に厳密な報酬関数を最大化することで学習します。しかし、丁寧なメールの作成や交差点の安全なナビゲートなど、「良い」行動が主観的または微妙である複雑な実世界タスクでは、完璧な報酬関数を手作業で書くことはほぼ不可能です。報酬モデリングは、人間の判断の代理として機能する二次的なニューラルネットワーク(報酬モデル)をトレーニングすることでこれを解決します。このモデルは、主要なAIの出力を評価し、スカラー値を割り当てて、メインモデルを安全で、役立つ、正確な行動へと動的に導きます。
報酬モデルを構築するためのパイプラインは、高品質な人間のフィードバックの収集に大きく依存しています。
報酬モデリングを人間からのフィードバックによる強化学習(RLHF)と区別することが重要です。これら2つの用語は頻繁に一緒に議論されますが、同義ではありません。RLHFは、教師ありファインチューニング、データ収集、ポリシー更新を含む、モデルをアラインするための包括的なエンドツーエンドのパイプラインです。報酬モデリングは、RLHFパイプライン内の特定の重要なコンポーネントです。これは、離散的な人間のランキングを、強化学習アルゴリズムが最適化できる連続的な数学的信号に変換する橋渡しとして機能します。
報酬モデリングは、人間や物理世界と直接対話する現代のAIシステムを開発する上で不可欠です。
以下のpythonの例は、 torch 報酬モデルの基礎構造を示すため。実際には、このネットワークは人間の好みに合致する出力に対して、より高いスカラー値を割り当てることを学習します。
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
アライメントがオープンソースの基盤モデルにどのように影響するかについてさらに深く掘り下げるには、言語モデルを人間の意図に合わせることに関する基礎研究を探求し、コンピュータービジョン (CV)システムが高度なフィードバックループを活用して動的な環境と安全に相互作用する方法を学びましょう。
未来の機械学習で、新たな一歩を踏み出しましょう。