YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

人間のフィードバックによる強化学習(RLHF)

人間からのフィードバックによる強化学習(RLHF)がAIを人間の価値観とどのように整合させるかを学びましょう。その主要コンポーネントとUltralytics YOLO26との統合を探ります。

人間からのフィードバックによる強化学習 (RLHF) は、訓練ループに直接的な人間の入力を組み込むことで人工知能モデルを洗練させる高度な機械学習技術です。静的ラベル付きデータセットのみに依存する標準的な教師あり学習とは異なり、RLHFは、人間の評価者がモデルの出力をランク付けまたは評価する動的なフィードバックメカニズムを導入します。このプロセスにより、AIは「有用性」、「安全性」、「創造性」など、単純な数学的損失関数では定義が難しい、複雑で主観的、または微妙な目標を捉えることができます。RLHFは、現代の大規模言語モデル (LLMs)および生成AIの開発における礎石となり、強力な基盤モデルが人間の価値観とユーザーの意図に効果的に合致するようにしています。

RLHFの中核コンポーネント

RLHFプロセスは、一般的に3段階のパイプラインに従い、生の予測能力と人間に整合した行動との間のギャップを埋めるように設計されている。

  1. 教師あり微調整(SFT):ワークフローは通常、事前学習済み基盤モデルから開始される。開発者は、専門家が作成した質問と回答のペアなど、高品質な小規模なデモンストレーションデータセットを用いて初期微調整を行う。このステップでは、タスクに求められる一般的な形式とトーンをモデルに教えることで、ベースラインポリシーを確立する。
  2. 報酬モデルのトレーニング: このフェーズはRLHFの際立った特徴です。人間のアノテーターが、同じ入力に対してモデルが生成した複数の出力をレビューし、最良から最悪へとランク付けします。このデータラベリング作業により、選好のデータセットが生成されます。報酬モデルと呼ばれる別のニューラルネットワークは、この比較データに基づいてトレーニングされ、人間の判断を反映するスカラー値を予測します。Ultralytics Platformで利用可能なツールは、このようなアノテーションワークフローの管理を効率化できます。
  3. 強化学習最適化:最後に、元のモデルは強化学習環境内でAIエージェントとして機能します。報酬モデルをガイドとして使用し、近接ポリシー最適化(PPO)のような最適化アルゴリズムがモデルのパラメータを調整して、期待される報酬を最大化します。このステップは、モデルのポリシーを学習された人間の好みに合わせ、有益で安全な行動を奨励し、有害または無意味な出力を抑制します。

実際のアプリケーション

RLHFは、高い安全基準と人間との相互作用の微妙な理解を必要とするAIシステムをデプロイする上で、極めて重要であることが証明されています。

  • 対話型AIとチャットボット:RLHFの最も顕著な応用例は、チャットボットを「有用」「無害」「誠実」に調整することである。偏見を含む出力、事実誤認のある出力、危険な出力を罰則化することで、RLHFはLLMにおける幻覚現象を軽減し、アルゴリズムバイアスのリスクを低減する。これにより、仮想アシスタントは正当な問い合わせには有用でありつつ、有害な指示を拒否できるようになる。
  • ロボティクスと物理制御:RLHFはテキストを超え、 複雑な物理タスクに対する完璧な報酬関数の定義が困難な ロボティクスAIの領域にまで拡張される。例えば、混雑した倉庫内を移動する方法を学習するロボットは、 どの経路が安全で、どの経路が混乱を引き起こしたかについて、人間の監督者からフィードバックを受け取ることがある。 このフィードバックは、目標達成のみに基づく単純な 深層強化学習よりも効果的に、 ロボットの制御ポリシーを洗練させる。

RLHFと標準的な強化学習の比較

RLHFの特異的な有用性を理解するには、従来の強化学習(RL)との区別が有用である。

  • 標準的なRL:従来の設定では、報酬関数は環境によってハードコードされることが多い。 例えばビデオゲームでは、環境が明確な信号を提供する(勝利で+1、敗北で-1)。エージェントは この定義されたマルコフ決定過程(MDP)内で 自身の行動を最適化する。
  • RLHF:創造的な物語を書くことや礼儀正しい運転など、多くの現実世界のシナリオにおいて、 「成功」は主観的なものです。RLHFは、ハードコードされた報酬を人間の嗜好から導出された学習型報酬モデルに置き換えることでこの問題を解決します。これにより、「品質」や「適切さ」といった明示的にプログラムすることが不可能な抽象的な概念の最適化が可能になります。

知覚とフィードバックループの統合

視覚アプリケーションにおいて、RLHFに整合したエージェントは、行動前に環境状態を認識するためにコンピュータビジョン(CV)に依存することが多い。YOLO26などの堅牢な検出器が知覚層として機能し、構造化された観測値(例:「3メートル先に障害物を検出」)を提供し、ポリシーネットワークがこれに基づいて行動を選択する。

以下のpythonの例は、YOLOモデルが環境状態を提供する簡略化された概念を示しています。完全なRLHFループでは、「報酬」シグナルは、このdetectデータに基づいたエージェントの決定に関する人間のフィードバックでトレーニングされたモデルから得られます。

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

強力な知覚モデルと人間のフィードバックを通じて洗練されたポリシーを組み合わせることで、開発者は知能的であるだけでなく、AI安全原則と厳密に整合したシステムを構築できる。スケーラブルな監視技術(例:憲法AI)に関する継続的な研究はこの分野を進化させ続けており、大規模な人間によるアノテーションのボトルネックを軽減しつつ、高いモデル性能を維持することを目指している。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。