人間のフィードバックからの強化学習(RLHF)
人間のフィードバックからの強化学習(RLHF)が、より安全でスマートなAIを実現するために、人間の価値観とモデルを一致させることでAIのパフォーマンスをどのように向上させるかをご覧ください。
人間のフィードバックからの強化学習(RLHF)は、人工知能(AI)モデルを複雑で主観的な人間の価値観に合わせるために設計された高度な機械学習技術である。RLHFは、あらかじめ定義された報酬関数に依存する代わりに、人間の嗜好を利用して「報酬モデル」を訓練し、AIの学習プロセスをガイドする。このアプローチは、"良い "パフォーマンスの定義が微妙で主観的であったり、安全で有益で首尾一貫した対話の生成のような単純な指標で特定することが困難なタスクに特に効果的である。
RLHFの仕組み
RLHFのプロセスには、通常3つの重要なステップがある:
- 言語モデルの事前学習膨大なテキストデータのコーパスで事前に訓練された、ベースとなる大規模言語モデル(LLM)からスタートする。この初期モデルは基礎モデルに似ており、言語を幅広く理解しているが、まだ特定のスタイルやタスクに特化していない。このステップの後に、高品質なデータセット上で教師ありの微調整を行うことも可能である。
- 報酬モデルのトレーニング:これがRLHFの核心である。人間のラベラーは、プロンプトに応答して、事前に訓練されたモデルによって生成されたいくつかの出力を提示される。彼らは、役に立つ、真実である、安全であるなどの基準に基づいて、これらの出力をベストからワーストにランク付けする。この嗜好データは、次に別の報酬モデルを訓練するために使用される。報酬モデルは、人間がどの出力を好むかを予測するように学習し、人間の判断を効果的に取り込む。
- 強化学習による微調整:事前に訓練されたモデルは、強化学習(RL)を使ってさらに微調整される。この段階では、モデル(エージェントとして動作)は出力を生成し、報酬モデルは各出力に対して「報酬」スコアを提供する。このプロセスは、多くの場合PPO(Proximal Policy Optimization)のようなアルゴリズムで管理され、AIモデルが報酬を最大化する応答を生成するようにパラメータを調整することを促し、それによってAIモデルの行動を学習された人間の嗜好に合わせる。OpenAIや DeepMindのような組織による先駆的な研究が、その有効性を実証している。
実世界での応用
RLHFは最新のAIシステムの開発に貢献してきた。
- 高度なチャットボット:OpenAIのChatGPTやAnthropicのClaudeのような主要なAIチャットボットは、RLHFを使用して、その応答が正確であるだけでなく、無害で、倫理的で、ユーザーの意図に沿ったものであることを保証します。これは、大規模な生成AIの一般的な課題である、偏ったコンテンツや有害なコンテンツの生成などの問題を軽減するのに役立ちます。
- 自律運転の好み: 自動運転車用のAIを開発する際、RLHFは、車線変更時の快適性や曖昧な状況での意思決定など、シミュレートされた行動に関するドライバーからのフィードバックを取り入れることができる。これにより、AIは人間にとって直感的で信頼できると感じられる運転スタイルを学習し、Ultralytics YOLOのようなモデルによって実行される物体検出のような従来のコンピュータビジョンタスクを補完することができます。
RLHFと関連概念
RLHFを他のAI学習技術と区別することは重要だ。
- 強化学習:標準的なRLでは、開発者が報酬関数を手動で設計し、望ましい行動を定義する必要がある。これは、スコアが明確なゲームでは簡単ですが、複雑な実世界のタスクでは困難です。RLHFは、人間のフィードバックから報酬関数を学習することでこの問題を解決し、成功の明確な指標がない問題に適しています。
- 教師あり学習: 教師あり学習は、単一の「正解」を持つデータセットでモデルを学習する。このアプローチは、複数の正解が存在するクリエイティブなタスクや主観的なタスクには有効ではない。RLHFはプリファレンス・ランキング(「AはBより優れている」など)を使用することで、曖昧さを回避し、ニュアンスのある行動を学習することができる。
課題と今後の方向性
その強力さにもかかわらず、RLHFは課題に直面している。質の高い人間のフィードバックを集めるにはコストがかかり、ラベラーが多様でない場合、データセットに偏りが生じる可能性がある。さらに、AIは報酬モデルを「ゲーム」する方法を発見するかもしれない。
今後の研究では、より効率的なフィードバック手法や、AIが生成した原理を用いてモデルを誘導するConstitutional AIのような代替手法の研究が進められている。RLHFの実装には複数の機械学習領域の専門知識が必要だが、Hugging FaceのTRLライブラリーのようなツールによって、より身近なものになりつつある。Ultralytics HUBのようなプラットフォームは、データセットとトレーニングモデルを管理するためのインフラを提供し、高度なアライメントタスクと堅牢な機械学習オペレーション(MLOps)の基礎となる。