Изучите технологию Representation Engineering (RepE) для мониторинга и управления поведением ИИ. Узнайте, как управлять внутренними состояниями модели Ultralytics для создания более безопасных и управляемых моделей.
Инженерия представлений (RepE) — это передовая методология в области машинного обучения, которая предполагает анализ и непосредственное манипулирование внутренними когнитивными состояниями — или представлениями — нейронных сетей с целью мониторинга и управления их поведением. Внедренная как нисходящий подход к безопасности и согласованию ИИ, RepE смещает акцент с простой модификации входных или выходных данных модели. Вместо этого она считывает и изменяет внутренние скрытые состояния крупных языковых моделей и систем компьютерного зрения во время вывода в реальном времени, позволяя разработчикам направлять модель к желаемым концепциям, таким как честность, безвредность или определенные визуальные особенности, без переобучения сети.
Основная концепция RepE, подробно изложенная в основополагающей статье «Representation Engineering», подготовленной Центром по безопасности искусственного интеллекта, разделяется на два основных этапа: чтение и управление.
На этапе «чтения» исследователи анализируют, как скрытые слои модели кодируют конкретные понятия. Наблюдая за результатами функции активации для различных запросов или изображений, инженеры могут выделить конкретное «направление» в латентном пространстве, которое соответствует какому-либо понятию, например правдивости или конкретному классу объектов. Это в значительной степени опирается на исследованияхAnthropic в области механистической интерпретируемости, направленных на реверс-инжиниринг нейронных сетей.
На этапе «управления» эти изолированные представления искусственно усиливаются или подавляются во время прямого прохода. Такое вмешательство эффективно изменяет поведение модели в режиме реального времени — эта техника в полной мере соответствует рекомендациям OpenAI по согласованию и безопасности, направленным на создание управляемых и предсказуемых систем искусственного интеллекта.
Чтобы полностью понять RepE, важно отличать его от других распространенных методов, используемых в компьютерном зрении и обработке естественного языка:
Проект RepE способствует значительным достижениям в создании надёжных и управляемых систем искусственного интеллекта в различных областях, опираясь на исследования таких учреждений, как исследования MIT CSAIL по интерпретируемости нейронных сетей:
Хотя прямое редактирование активаций требует применения сложных математических методов, первый этап RepE — чтение представлений — может быть выполнен с помощью современных фреймворков глубокого обучения. Используя документациюPyTorch hooksPyTorch , разработчики могут извлекать внутренние состояния моделей, таких как Ultralytics , для анализа того, как кодируются визуальные понятия.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
По мере усложнения моделей методы, описанные в руководствеTensorFlow по обучению представлений и исследованияхGoogle в области безопасности, подчеркивают, что понимание и проектирование этих внутренних состояний будет иметь решающее значение для следующего поколения безопасных и надежных архитектур ИИ .
Начните свой путь в будущее машинного обучения