了解人类反馈强化学习 (RLHF) 如何通过使模型与人类价值观保持一致来优化 AI 性能,从而实现更安全、更智能的 AI。
从人类反馈中强化学习(RLHF)是机器学习(ML)中的一个复杂框架。 机器学习(ML)中的一个复杂框架,它将 人工智能(AI)系统 与人类的价值观、偏好和意图相一致。与传统的 监督学习不同,监督学习训练模型 不同的是,RLHF 引入了一个动态反馈回路,由人类评估者对模型输出进行排序。这些 排名数据用于训练 "奖励模型",该模型随后会指导人工智能生成更有用、安全和准确的响应、 安全和准确的响应。事实证明,这种技术对于开发现代 大型语言模型(LLM)和 生成式人工智能的发展至关重要,它能确保强大的基础 模型按照用户的期望行事,而不仅仅是通过统计预测下一个单词或像素。
通过 RLHF 调整模型的过程一般分为三个步骤,在原始预测能力和细致的人机交互之间架起了一座桥梁。 预测能力与细致入微的人机交互之间的差距。
虽然这两种方法都依赖于最大限度地提高回报,但回报的来源却使它们大相径庭。
RLHF 改变了人工智能系统与世界互动的方式,尤其是在需要高安全标准和细微理解的领域。 和细致入微的理解。
在视觉应用中,RLHF 代理通常依靠 计算机视觉(CV)来感知环境状态。 其环境状态。稳健的检测器,如 YOLO11可以 可以充当系统的 "眼睛",提供结构化的观察结果(例如,"发现左侧有行人"),策略网络据此选择行动。 左侧发现行人"),策略网络可利用这些观察结果选择行动。
下面的示例说明了一个简化的概念,即YOLO 模型为一个代理提供环境状态。 代理的环境状态。在一个完整的 RLHF 循环中,"奖励 "将由一个根据人类偏好训练的模型来决定。 来决定。
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
通过将功能强大的感知模型与通过人类反馈调整的策略相结合,开发人员可以构建出这样的系统 不仅具有智能性,还能严格检查人工智能的安全性。 人工智能的安全性。对可扩展监督的研究,如 人工智能宪法 等可扩展监督方面的研究将继续推动这一领域的发展,旨在减少对大规模人工注释的严重依赖。

