Reinforcement Learning from Human Feedback(RLHF)が、モデルを人間の価値観に合わせることでAIのパフォーマンスを向上させ、より安全でスマートなAIを実現する様子をご覧ください。
人間のフィードバックからの強化学習(RLHF)は、機械学習(ML)における洗練されたフレームワークである。 機械学習(ML)における高度なフレームワークである。 人工知能(AI)システム 人間の価値観、嗜好、意図と一致させる。従来の 教師あり学習とは異なり RLHFは、人間の評価者がモデルの出力をランク付けする動的なフィードバックループを導入している。この このランク付けデータは、「報酬モデル」を訓練するために使用され、その後、AIがより有益で安全かつ正確な応答を生成するように導かれる、 安全で正確な応答を生成するようAIを導く。このテクニックは、最新の 大規模言語モデル(LLM)と生成AIの開発に不可欠であることが証明されている。 生成的AIの開発に不可欠であることが証明されている。 モデルは、単に統計的に次の単語やピクセルを予測するのではなく、ユーザーの期待に従って行動する。
RLHFによってモデルを調整するプロセスは、一般的に3段階のパイプラインに従う。 予測能力と人間との微妙な相互作用のギャップを埋める。
どちらのアプローチも報酬を最大化することに依存しているが、その報酬の源泉によって両者は大きく異なる。
RLHFは、特に高度な安全基準を必要とする領域において、AIシステムが世界とどのように相互作用するかを一変させた。 と微妙な理解を必要とする領域では特に。
視覚的なアプリケーションにおいて、RLHFエージェントは、しばしばコンピュータビジョン(CV)に依存している。 コンピュータビジョン(CV)に頼ることが多い。 に頼ることが多い。例えば YOLO11のような YOLO11のようなロバストな検出器は、システムの「目」として機能し、ポリシー・ネットワークが行動を選択するために使用する構造化された観察結果(例えば、「左側で歩行者を検出」)を提供することができる。 を提供し、ポリシー・ネットワークが行動を選択するために使用します。
次の例は、YOLO モデルがエージェントの環境状態を提供するという単純化された概念を示している。 エージェントの環境状態を提供する。完全なRLHFループでは、"報酬 "は、エージェントの自信や正確さに関する人間の嗜好に基づいて訓練されたモデルによって決定される。 によって決定される。
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
強力な知覚モデルと人間のフィードバックによって調整されたポリシーを組み合わせることで、開発者は以下のようなシステムを構築することができる。 システムを構築することができる。 AIの安全性次のようなスケーラブルな監視の研究 立憲AI、 のようなスケーラブルな監視の研究は、大規模な人間によるアノテーションへの依存を減らすことを目指し、この分野を進化させ続けている。


