Узнайте о влиянии состязательных атак на системы AI, их типах, реальных примерах и стратегиях защиты для повышения безопасности AI.
Антагонистические атаки — это сложная категория манипуляционных техник, предназначенных для обмана моделей машинного обучения (ML) с целью получения неверных прогнозов с высокой степенью достоверности. Эти атаки работают путем введения тонких, часто незаметных возмущений в входные данные, такие как изображения, аудио или текст. Хотя эти изменения кажутся безобидными или случайными для человеческого наблюдателя, они используют определенные математические уязвимости в границах принятия решений высокоразмерных нейронных сетей. Поскольку системы искусственного интеллекта (ИИ) становятся неотъемлемой частью инфраструктуры, критически важной для безопасности, понимание того, как функционируют эти уязвимости, имеет важное значение для разработки надежных протоколов безопасности ИИ и механизмов защиты .
В типичном процессе обучения глубокого обучения (DL) модель оптимизирует свои веса, чтобы минимизировать ошибку в обучающем наборе данных. Однако эти модели по сути создают сложные карты в многомерном пространстве. Противостоящая атака вычисляет точное «направление» в этом пространстве, необходимое для перемещения ввода через границу, переворачивая классификацию модели. Например, в компьютерном зрении (CV) изменение значений пикселей изображения панды на рассчитанное количество «шума» может привести к тому, что система с уверенностью классифицирует его как гиббона, даже если для человеческого глаза изображение по-прежнему выглядит точно так же, как панда.
Стратегии атак обычно классифицируются по уровню доступа, который имеет злоумышленник к целевой системе:
Хотя противоборческие атаки часто обсуждаются в теоретических исследованиях, они представляют собой реальную угрозу для реальных систем, особенно для автономных систем и систем безопасности.
Чтобы понять, насколько уязвимыми могут быть некоторые модели, полезно увидеть, как легко можно нарушить изображение. Хотя стандартные выводы с помощью моделей, таких как YOLO26, являются надежными для общего использования, исследователи часто моделируют атаки, чтобы улучшить мониторинг и защиту моделей. В следующем концептуальном примере с помощью PyTorch как градиенты используются для расчета враждебного возмущения (шума) для изображения.
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbation
Важно отличать атаки со стороны противника от других форм сбоев или манипуляций с моделью:
Разработка средств защиты от этих атак является ключевым компонентом современных MLOps. Такие методы, как противоположное обучение, при котором в набор обучающих данных добавляются примеры атак, помогают повысить устойчивость моделей. Платформы, такие как Ultralytics , способствуют созданию строгих процессов обучения и проверки, позволяя командам оценивать надежность моделей перед их развертыванием на периферийных устройствах.