Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Состязательные атаки

Узнайте о влиянии состязательных атак на системы AI, их типах, реальных примерах и стратегиях защиты для повышения безопасности AI.

Антагонистические атаки — это сложная категория манипуляционных техник, предназначенных для обмана моделей машинного обучения (ML) с целью получения неверных прогнозов с высокой степенью достоверности. Эти атаки работают путем введения тонких, часто незаметных возмущений в входные данные, такие как изображения, аудио или текст. Хотя эти изменения кажутся безобидными или случайными для человеческого наблюдателя, они используют определенные математические уязвимости в границах принятия решений высокоразмерных нейронных сетей. Поскольку системы искусственного интеллекта (ИИ) становятся неотъемлемой частью инфраструктуры, критически важной для безопасности, понимание того, как функционируют эти уязвимости, имеет важное значение для разработки надежных протоколов безопасности ИИ и механизмов защиты .

Как работают состязательные атаки

В типичном процессе обучения глубокого обучения (DL) модель оптимизирует свои веса, чтобы минимизировать ошибку в обучающем наборе данных. Однако эти модели по сути создают сложные карты в многомерном пространстве. Противостоящая атака вычисляет точное «направление» в этом пространстве, необходимое для перемещения ввода через границу, переворачивая классификацию модели. Например, в компьютерном зрении (CV) изменение значений пикселей изображения панды на рассчитанное количество «шума» может привести к тому, что система с уверенностью классифицирует его как гиббона, даже если для человеческого глаза изображение по-прежнему выглядит точно так же, как панда.

Стратегии атак обычно классифицируются по уровню доступа, который имеет злоумышленник к целевой системе:

  • Атаки «белого ящика»: злоумышленник имеет полную прозрачность архитектуры модели, градиентов и весов модели. Это позволяет ему математически вычислить наиболее эффективное возмущение, часто с использованием таких методов, как метод быстрого знака градиента (FGSM).
  • Атаки «черного ящика»: Злоумышленник не знает внутренних параметров модели и может наблюдать только входы и выходы. Злоумышленники часто используют «замещающую модель» для генерации враждебных примеров, которые эффективно переносятся в целевую систему, что называется переносимостью.

Применение в реальном мире и риски

Хотя противоборческие атаки часто обсуждаются в теоретических исследованиях, они представляют собой реальную угрозу для реальных систем, особенно для автономных систем и систем безопасности.

  • Автономные транспортные средства: Автомобили с автопилотом в значительной степени полагаются на обнаружение объектов для интерпретации дорожных знаков. Исследования показали, что наклеивание тщательно изготовленных наклеек или ленты на знак остановки может заставить систему видения автомобиля воспринимать его как знак ограничения скорости. Такой тип атаки в реальном мире может привести к опасным сбоям в работе искусственного интеллекта в автомобильных приложениях.
  • Уклонение отсистемы распознавания лиц: Системы безопасности, контролирующие доступ на основе биометрических данных, могут быть скомпрометированы с помощью специальных «патчей». Это могут быть напечатанные узоры, которые носят на очках или одежде и которые нарушают процесс извлечения признаков. Это позволяет неавторизованному лицу либо полностью уклониться от обнаружения, либо выдать себя за конкретного пользователя, обойдя системы охранной сигнализации.

Генерация противоположных примеров в Python

Чтобы понять, насколько уязвимыми могут быть некоторые модели, полезно увидеть, как легко можно нарушить изображение. Хотя стандартные выводы с помощью моделей, таких как YOLO26, являются надежными для общего использования, исследователи часто моделируют атаки, чтобы улучшить мониторинг и защиту моделей. В следующем концептуальном примере с помощью PyTorch как градиенты используются для расчета враждебного возмущения (шума) для изображения.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Связанные понятия

Важно отличать атаки со стороны противника от других форм сбоев или манипуляций с моделью:

  • Заражение данных: В отличие от атак с использованием противоположных данных, которые манипулируют входными данными во время вывода (время тестирования), заражение данных включает в себя повреждение самих обучающих данных до построения модели, встраивание скрытых бэкдоров или смещений.
  • Быстрая инъекция: это специфично для крупных языковых моделей (LLM) и текстовых интерфейсов. Хотя концептуально это похоже — обман модели — оно основано на семантической манипуляции языком, а не на математическом возмущении пиксельных или сигнальных данных.
  • Переобучение: это сбой обучения, при котором модель учится на шуме в обучающих данных, а не на базовом шаблоне. Переобученные модели часто более подвержены враждебным атакам, поскольку их границы принятия решений чрезмерно сложны и хрупки.

Разработка средств защиты от этих атак является ключевым компонентом современных MLOps. Такие методы, как противоположное обучение, при котором в набор обучающих данных добавляются примеры атак, помогают повысить устойчивость моделей. Платформы, такие как Ultralytics , способствуют созданию строгих процессов обучения и проверки, позволяя командам оценивать надежность моделей перед их развертыванием на периферийных устройствах.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас