用語集

人間のフィードバックからの強化学習(RLHF)

人間のフィードバックからの強化学習(RLHF)が、より安全でスマートなAIを実現するために、人間の価値観とモデルを一致させることでAIのパフォーマンスをどのように向上させるかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人間のフィードバックからの強化学習(RLHF)は、AIモデル、特に大規模言語モデル(LLM)やその他の生成システムを、人間の意図や嗜好により近づけるように設計された高度な機械学習(ML)手法である。これは、人間のフィードバックを学習ループに直接組み込むことで、標準的な強化学習(RL)のパラダイムを改良するもので、従来の報酬関数では特定が困難な場合でも、人工知能(AI)が役に立つ、害がない、誠実な行動を学習するよう導く。このアプローチは、より安全で有用なAIシステムを開発する上で極めて重要であり、単純な精度測定基準を超えて、人間の価値観に沿ったニュアンスのあるパフォーマンスへと移行する。

RLHFの仕組み

RLHFは通常、人間の判断を統合して報酬モデルを訓練し、それが主要なAIモデルの微調整の指針となる多段階プロセスを含む:

  1. モデルの事前学習:初期モデル(例えばLLM)は、大規模なデータセット上で標準的な手法(多くの場合、教師あり学習)を使って学習される。このモデルは関連するコンテンツを生成できるが、特定のアライメントが欠けている可能性がある。
  2. 人間のフィードバックを集める:事前に訓練されたモデルは、さまざまなプロンプトに対して複数の出力を生成する。人間の評価者は、品質、有用性、無害性、またはその他の希望する基準に基づいて、これらの出力をランク付けする。この比較フィードバックは、多くの場合、絶対スコアよりも信頼性が高く、人間が提供しやすい。このデータはプリファレンスデータセットを形成する。
  3. 報酬モデルのトレーニング:報酬モデルとして知られる別のモデルが、人間の嗜好データに基づいて学習される。その目的は、人間がどの出力を好むかを予測することであり、基本的に人間の判断を模倣して学習し、スカラー報酬信号を割り当てる。
  4. 強化学習による微調整:オリジナルのAIモデルは、RL(具体的にはProximal Policy Optimization(PPO)のようなアルゴリズム)を使って微調整される。この段階では、報酬モデルが報酬シグナルを提供します。AIモデルはさまざまな出力を探索し、報酬モデルによって支持された出力は強化され、モデルの行動を人間の嗜好に導きます。RLの基本的な概念は、Sutton & Bartoのintroductionなどのリソースで詳しく説明されている。

この反復サイクルは、プログラムで定義するのが難しい複雑で主観的な目標をAIモデルが学習するのを助け、AI倫理のような側面を強化し、アルゴリズムの偏りを減らす。

RLHFと関連概念

  • 標準的な強化学習(RL):従来のRLは、環境状態や行動に基づいて明示的にプログラムされた報酬関数に依存していた。RLHFは、これを人間の嗜好に基づく学習済み報酬モデルで置き換えたり補ったりすることで、より微妙な、あるいは主観的な目標を捉えることができる。より高度なRL技術については、深層強化学習をご覧ください。
  • コンスティテューショナルAI(CAI)開発者 AnthropicCAIは代替的なアライメント技術である。RLHFが人間のフィードバックを使って、報酬モデルの有用性と無害性の両方を訓練するのに対して、CAIは事前に定義された「憲法」(ルールや原則のセット)に導かれたAIのフィードバックを使って、無害性のモデルを監督する。Anthropic研究でCAIについてもっと読む。

RLHFの主な用途

RLHFは、AIの行動が人間の価値観や期待に密接に沿う必要があるアプリケーションにおいて、ますます重要になってきている:

  • チャットボットとバーチャルアシスタントの改善:会話AIをより魅力的で役に立つものにし、有害で偏った、あるいは無意味な応答を生成しにくくする。これにはGPT-4のようなモデルの微調整が必要です。
  • コンテンツ生成: テキスト要約や テキスト生成のようなタスクのモデルを改良し、希望するスタイルや品質基準により適した出力を生成する。
  • 推薦システムのパーソナライズ単純なクリックスルー率を超えて、ユーザーが純粋に面白い、あるいは役に立つと思うコンテンツを提案するようにレコメンデーション・エンジンをチューニングする。
  • より安全な自律走行車の開発:運転スタイルに関する人間の好み(スムーズさ、自己主張の強さなど)を安全ルールと一緒に取り入れる。

実例

チャットボット・アライメント

OpenAIやAnthropicなどは、大規模な言語モデルの学習にRLHFを多用している、 ChatGPTClaudeなど)。人間が、AIが生成したさまざまな応答を、有用性と無害性に基づいてランク付けすることで、LLMがより安全で、より倫理的で、より有用なテキストを生成するように導く報酬モデルを訓練する。これにより、有害または偏った出力に関連するリスクを軽減し、責任あるAI開発の原則を遵守することができる。

自律走行の好み

自動運転車用のAIを開発する際、RLHFは、模擬運転行動(車線変更時の快適性、加速のスムーズさ、曖昧な状況での意思決定など)に関するドライバーや同乗者からのフィードバックを取り入れることができる。これによりAIは、距離や制限速度といった客観的な指標に基づく安全性だけでなく、人間にとって快適で直感的に感じられる運転スタイルを学習し、ユーザーの信頼と受容を高めることができる。これは、次のようなモデルによって実行される物体検出のような従来のコンピュータ・ビジョン・タスクを補完する。 Ultralytics YOLO.

RLHFのメリット

  • アライメントの改善:人間の嗜好を直接取り入れることで、ユーザーの意図や価値観によりマッチしたAIシステムを実現。
  • 主観性の取り扱い:品質が主観的で、単純な指標で定義するのが難しいタスク(創造性、礼儀正しさ、安全性など)に効果的。
  • 安全性の強化:望ましくない出力に関する人間の判断から学習することで、AIが有害、非倫理的、または偏ったコンテンツを生成する可能性を低減します。
  • 適応性:対象となるフィードバックに基づいて、特定のドメインやユーザーグループ向けにモデルを微調整できる。

課題と今後の方向性

その強みにもかかわらず、RLHFは課題に直面している:

  • スケーラビリティとコスト:質の高い人間のフィードバックを集めるには、費用と時間がかかる。
  • フィードバックの質とバイアス:人間の嗜好は一貫性がなかったり、偏っていたり、専門知識が不足していたりすることがあり、報酬モデルのデータセットバイアスにつながる可能性がある。多様で代表的なフィードバックを確保することは非常に重要です。
  • 報酬のハッキング:AIは、実際に人間の嗜好を満たすことなく、報酬モデルによって予測される報酬を最大化する方法を見つけるかもしれない(報酬ハッキングまたは仕様ゲームとして知られている)。
  • 複雑さ:完全なRLHFパイプラインを実装するには、教師あり学習強化学習、大規模なモデルトレーニングの管理など、MLの複数の分野の専門知識が必要です。

今後の研究は、より効率的なフィードバック方法(例えば、ラベリングにAI支援を使用する)、バイアスの緩和、報酬モデルの頑健性の向上、より幅広いAIタスクへのRLHFの適用に重点を置く。Hugging FaceTRLライブラリのようなツールは、RLHFの実装を容易にします。Ultralytics HUBのようなプラットフォームは、データセットとトレーニングモデルを管理するためのインフラストラクチャを提供し、将来的にはコンピュータビジョンのような分野の特殊なアライメントタスクのために、人間のフィードバックメカニズムを統合できる可能性があります。このようなプラットフォームを使い始めるための詳細については、Ultralytics HUBクイックスタートガイドを参照してください。RLHFを理解することは、効果的な機械学習オペレーション(MLOps)とAIの透明性を確保するためにますます重要になっています。

すべて読む