遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Representation Engineering (RepE)

探索表征工程 (RepE) 以监测和控制 AI 行为。了解如何操纵 Ultralytics YOLO26 的内部状态,从而获得更安全、可控的模型。

Representation Engineering (RepE) is an advanced methodology in machine learning that involves analyzing and directly manipulating the internal cognitive states—or representations—of neural networks to monitor and control their behavior. Introduced as a top-down approach to AI safety and alignment, RepE shifts the focus away from merely modifying a model's inputs or outputs. Instead, it reads and alters the internal hidden states of large language models and vision systems during real-time inference, enabling developers to steer the model towards desired concepts like honesty, harmlessness, or specific visual features without retraining the network.

Link to this section表征工程的工作原理#

RepE 的核心概念在 Center for AI Safety 的表征工程论文 中有详尽阐述,主要分为两个阶段:读取和控制。

在“读取”阶段,研究人员分析模型的隐藏层如何编码特定概念。通过观察不同提示词或图像的 激活函数 输出,工程师可以隔离潜在空间中对应于某个概念(如真实性或特定对象类别)的特定“方向”。这很大程度上建立在 Anthropic 的机械可解释性研究 基础之上,该研究旨在对神经网络进行逆向工程。

在“控制”阶段,这些隔离出的表征会在前向传播过程中被人工放大或抑制。这种干预有效地即时改变了模型的行为,该技术与 OpenAI 的对齐与安全指南 中关于创建可控、可预测 AI 系统的要求高度一致。

Link to this section区分 RepE 与相关概念#

要充分理解 RepE,必须将其与 计算机视觉 和自然语言处理中使用的其他常用技术区分开来:

  • 提示工程 这涉及精心设计特定的文本或视觉输入以引导模型的输出。RepE 不改变输入;它改变模型内部处理输入的方式。
  • 微调 微调通过使用自定义数据集永久更新 模型权重,这通常通过 Ultralytics Platform 等工具进行管理。RepE 则保持原始权重不变,而是在运行时对激活值应用动态转换。
  • 特征工程 这是一种传统的数据准备步骤,人类专家手动选择数据输入。正如 维基百科关于特征学习的条目 所述,RepE 作用于模型 已经 自主学习到的特征。

Link to this section实际应用#

MIT CSAIL 关于神经网络可解释性的研究 等机构的研究支持下,RepE 正在推动在多个领域创建稳健、可控 AI 的重大进展:

  • 缓解 AI 幻觉: 通过识别“真实性”的内部表征,工程师可以在推理过程中人工增强此信号。这被积极用于减少 大语言模型幻觉,确保聊天机器人提供事实信息,而不是编造答案。
  • 引导多模态视觉系统:多模态模型 中,RepE 可用于控制 AI 代理的视觉焦点。例如,在自动驾驶中,放大“行人危险”的内部表征可以迫使模型在复杂环境中优先处理安全关键性的检测,这是 IEEE 关于 AI 透明度的出版物 中强调的重点领域。

Link to this section在视觉模型中实现概念提取#

虽然直接编辑激活值需要高级的数学干预,但 RepE 的第一步——读取表征——可以使用现代深度学习框架来执行。通过利用 PyTorch 前向钩子文档,开发者可以提取 Ultralytics YOLO26 等模型的内部状态,以分析视觉概念是如何被编码的。

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

随着模型变得越来越复杂,TensorFlow 的表征学习指南Google DeepMind 的安全研究 中描述的技术强调,理解和设计这些内部状态对于下一代安全、可靠的 AI 架构将至关重要。

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅