Yolo 深圳
深セン
今すぐ参加
用語集

人間のフィードバックによる強化学習(RLHF)

Reinforcement Learning from Human Feedback(RLHF)が、モデルを人間の価値観に合わせることでAIのパフォーマンスを向上させ、より安全でスマートなAIを実現する様子をご覧ください。

人間のフィードバックからの強化学習(RLHF)は、機械学習(ML)における洗練されたフレームワークである。 機械学習(ML)における高度なフレームワークである。 人工知能(AI)システム 人間の価値観、嗜好、意図と一致させる。従来の 教師あり学習とは異なり RLHFは、人間の評価者がモデルの出力をランク付けする動的なフィードバックループを導入している。この このランク付けデータは、「報酬モデル」を訓練するために使用され、その後、AIがより有益で安全かつ正確な応答を生成するように導かれる、 安全で正確な応答を生成するようAIを導く。このテクニックは、最新の 大規模言語モデル(LLM)と生成AIの開発に不可欠であることが証明されている。 生成的AIの開発に不可欠であることが証明されている。 モデルは、単に統計的に次の単語やピクセルを予測するのではなく、ユーザーの期待に従って行動する。

RLHFのワークフロー

RLHFによってモデルを調整するプロセスは、一般的に3段階のパイプラインに従う。 予測能力と人間との微妙な相互作用のギャップを埋める。

  1. 教師ありファインチューニング(SFT):このプロセスは通常、事前に訓練された 基礎モデルからスタートします。開発者は の小規模で高品質なデータセットでファインチューニングを行います。 (ダイアログやデモなど)でファインチューニングを行い、目的のタスクの基本的な形式をモデルに教えます。
  2. 報酬モデルのトレーニング:これがRLHFの中核である。人間のアノテーターが、同じ入力に対してモデル 同じ入力に対してモデルによって生成された複数の出力をレビューし、ベストからワーストにランク付けする。この データ・ラベリング・プロセスは、嗜好のデータセット のデータセットを作成する。報酬モデル 報酬モデルとして知られる別のニューラルネットワークは、人間の判断を模倣するスカラー報酬スコアを予測するために、この比較データで訓練される。
  3. 強化学習の最適化:元のモデルが効果的に AIエージェントとなる。 強化学習環境報酬モデルをガイドとして 報酬モデルをガイドとして プロキシマル・ポリシー最適化(PPO) は、期待報酬を最大化するためにエージェントのパラメータを調整する。このステップでは、モデルのポリシーを根本的に変更し、次のような行動をとるようにする。 学習された人間の嗜好に沿った行動、例えば有害なクエリを丁重に拒否するような行動を好むように、モデルのポリシーを根本的に変更する。

RLHFと標準的な強化学習の比較

どちらのアプローチも報酬を最大化することに依存しているが、その報酬の源泉によって両者は大きく異なる。

  • 標準的な強化学習(RL):伝統的なRLでは、報酬関数はハードコードされるか、環境によって数学的に定義されることが多い。 数学的に定義される。例えば、チェスのゲームでは、環境は明確なシグナルを提供する。 シグナルを与える:勝ったら+1、負けたら-1。エージェントはこの定義されたゲームの中で試行錯誤しながら学習する。 マルコフ決定過程(MDP)
  • RLHF:要約を書いたり、車を丁寧に運転したりといった現実の仕事の多くでは、「成功」を数式で明確に定義することは不可能だ。 成功」の数式を明示的に定義することは不可能です。RLHFは、ハードコードされた報酬を、人間のフィードバックから学習された報酬モデルに置き換えることで、この問題を解決する。 報酬を、人間のフィードバックから得られた学習報酬モデルに置き換えることで解決する。これにより、「親切」や「安全」といった抽象的な概念 を最適化することができる。

実際のアプリケーション

RLHFは、特に高度な安全基準を必要とする領域において、AIシステムが世界とどのように相互作用するかを一変させた。 と微妙な理解を必要とする領域では特に。

  • 会話型AIとチャットボット:RLHFの最も顕著な用途は、チャットボットを以下のように調整することである。 にすることである。RLHFは、有害、偏見、事実誤認のある出力にペナルティを与えることで、LLMの幻覚を軽減し、以下のような効果をもたらします。 LLMの幻覚を軽減し、アルゴリズムのバイアスを低減する。 アルゴリズムのバイアスを低減します。RLHFは、アシスタントに以下のことを保証します。 正当なクエリに有用でありながら、危険な指示を拒否できることを保証する。
  • ロボット工学と自律エージェント:テキストを越えて、RLHFはロボット工学に応用されている。 ロボット工学では、エージェントに複雑な物理的タスクを教えるために応用されている。例えば 例えば、壊れやすい物体の把持を学習するロボットアームは、どの把持の試みが安全で、どの把持が失敗であったかについて、人間の監督者からフィードバックを受けるかもしれない。 を受けたりする。このフィードバックは、単純な ディープ強化学習 より効果的に制御方針を改善する。同様の方法は 自律走行車が人間の乗員にとって自然な運転行動を を支援する。

知覚とRLHFの統合

視覚的なアプリケーションにおいて、RLHFエージェントは、しばしばコンピュータビジョン(CV)に依存している。 コンピュータビジョン(CV)に頼ることが多い に頼ることが多い。例えば YOLO11のような YOLO11のようなロバストな検出器は、システムの「目」として機能し、ポリシー・ネットワークが行動を選択するために使用する構造化された観察結果(例えば、「左側で歩行者を検出」)を提供することができる。 を提供し、ポリシー・ネットワークが行動を選択するために使用します。

次の例は、YOLO モデルがエージェントの環境状態を提供するという単純化された概念を示している。 エージェントの環境状態を提供する。完全なRLHFループでは、"報酬 "は、エージェントの自信や正確さに関する人間の嗜好に基づいて訓練されたモデルによって決定される。 によって決定される。

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

強力な知覚モデルと人間のフィードバックによって調整されたポリシーを組み合わせることで、開発者は以下のようなシステムを構築することができる。 システムを構築することができる。 AIの安全性次のようなスケーラブルな監視の研究 立憲AI、 のようなスケーラブルな監視の研究は、大規模な人間によるアノテーションへの依存を減らすことを目指し、この分野を進化させ続けている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加