Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Инженерия представлений (RepE)

Изучите технологию Representation Engineering (RepE) для мониторинга и управления поведением ИИ. Узнайте, как управлять внутренними состояниями модели Ultralytics для создания более безопасных и управляемых моделей.

Инженерия представлений (RepE) — это передовая методология в области машинного обучения, которая предполагает анализ и непосредственное манипулирование внутренними когнитивными состояниями — или представлениями — нейронных сетей с целью мониторинга и управления их поведением. Внедренная как нисходящий подход к безопасности и согласованию ИИ, RepE смещает акцент с простой модификации входных или выходных данных модели. Вместо этого она считывает и изменяет внутренние скрытые состояния крупных языковых моделей и систем компьютерного зрения во время вывода в реальном времени, позволяя разработчикам направлять модель к желаемым концепциям, таким как честность, безвредность или определенные визуальные особенности, без переобучения сети.

Как работает инженерия представлений

Основная концепция RepE, подробно изложенная в основополагающей статье «Representation Engineering», подготовленной Центром по безопасности искусственного интеллекта, разделяется на два основных этапа: чтение и управление.

На этапе «чтения» исследователи анализируют, как скрытые слои модели кодируют конкретные понятия. Наблюдая за результатами функции активации для различных запросов или изображений, инженеры могут выделить конкретное «направление» в латентном пространстве, которое соответствует какому-либо понятию, например правдивости или конкретному классу объектов. Это в значительной степени опирается на исследованияхAnthropic в области механистической интерпретируемости, направленных на реверс-инжиниринг нейронных сетей.

На этапе «управления» эти изолированные представления искусственно усиливаются или подавляются во время прямого прохода. Такое вмешательство эффективно изменяет поведение модели в режиме реального времени — эта техника в полной мере соответствует рекомендациям OpenAI по согласованию и безопасности, направленным на создание управляемых и предсказуемых систем искусственного интеллекта.

Отличие RepE от смежных понятий

Чтобы полностью понять RepE, важно отличать его от других распространенных методов, используемых в компьютерном зрении и обработке естественного языка:

  • Инженерия подсказок: это подразумевает создание специальных текстовых или визуальных подсказок, направляющих выходные данные модели. RepE не изменяет входные данные; он изменяет то, как модель обрабатывает входные данные внутри.
  • Тонкая настройка: при тонкой настройке веса модели постоянно обновляются с использованием настраиваемого набора данных, управление которым часто осуществляется с помощью таких инструментов, как Ultralytics . В отличие от этого, RepE не изменяет исходные веса, а применяет динамические преобразования к активациям во время выполнения.
  • Инженерия признаков: традиционный этап подготовки данных, на котором эксперты вручную выбирают исходные данные. Как отмечается в статье Википедии, посвященной обучению признакам, RepE работает с признаками, которые модель уже самостоятельно обучила.

Применение в реальном мире

Проект RepE способствует значительным достижениям в создании надёжных и управляемых систем искусственного интеллекта в различных областях, опираясь на исследования таких учреждений, как исследования MIT CSAIL по интерпретируемости нейронных сетей:

  • Снижение вероятности «галлюцинаций» ИИ: выявив внутреннее представление «правдивости», инженеры могут искусственно усилить этот сигнал во время вывода. Этот подход активно используется для снижения вероятности «галлюцинаций» в больших языковых моделях (LLM), что позволяет обеспечить предоставление чат-ботами достоверной информации вместо выдумывания ответов.
  • Управление мультимодальными системами зрительного восприятия: В мультимодальных моделях RepE можно использовать для управления визуальным фокусом ИИ-агента. Например, в сфере автономного вождения усиление внутреннего представления «опасностей, связанных с пешеходами», может заставить модель отдавать приоритет обнаружениям, критически важным для безопасности, в сложных условиях, что является одной из приоритетных областей, освещаемых в публикациях IEEE, посвящённых прозрачности ИИ.

Реализация извлечения концепций в моделях компьютерного зрения

Хотя прямое редактирование активаций требует применения сложных математических методов, первый этап RepE — чтение представлений — может быть выполнен с помощью современных фреймворков глубокого обучения. Используя документациюPyTorch hooksPyTorch , разработчики могут извлекать внутренние состояния моделей, таких как Ultralytics , для анализа того, как кодируются визуальные понятия.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

По мере усложнения моделей методы, описанные в руководствеTensorFlow по обучению представлений и исследованияхGoogle в области безопасности, подчеркивают, что понимание и проектирование этих внутренних состояний будет иметь решающее значение для следующего поколения безопасных и надежных архитектур ИИ .

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения