Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Состязательные атаки

Узнайте о влиянии состязательных атак на системы AI, их типах, реальных примерах и стратегиях защиты для повышения безопасности AI.

Атаки противника - это сложная техника, используемая для обмана модели машинного обучения путем внесения тонких, намеренно созданных возмущений во входные данные. Эти изменения, часто незаметные для человеческого глаза, манипулируют математическими операциями внутри нейронной сети, заставляя ее делать делать высокодостоверные, но неверные прогнозы. По мере того как искусственный интеллект становится искусственный интеллект становится все более интегрированным в критически важные системы, понимание этих уязвимостей необходимо для обеспечения чтобы развертывание моделей оставалось безопасным и надежным.

Механизмы и методы

Основной принцип атаки противника заключается в выявлении "слепых зон" в границе принятия решений модели. В глубоком обучении модели учатся classify данные путем оптимизируя веса моделей для минимизации ошибки. Злоумышленники используют это, вычисляя точные изменения, необходимые для того, чтобы перевести входные данные через порог классификации. Например, Например, метод быстрого градиентного знака (FGSM), представленный исследователями, включая Яна Гудфеллоу, корректирует значения входных пикселей в направлении, максимизирующем функцию потерь, быстро создавая неблагоприятный пример.

Атаки обычно классифицируются по уровню информации, доступной злоумышленнику:

  • Атаки из белого ящика: Злоумышленник имеет полный доступ к архитектуре и параметрам модели. Этот позволяет проводить точные расчеты, чтобы обмануть определенные уровни, часто проверяя пределы алгоритмической погрешности.
  • Атаки "черного ящика": Атакующий не имеет внутренних знаний и взаимодействует с моделью только через входы и выходы, подобно стандартному механизм вывода. Эти атаки часто опираются на переносимость, когда пример, обманувший одну модель, скорее всего, обманет и другую.

Применение в реальном мире и риски

Последствия атак противника выходят далеко за рамки академических исследований, создавая реальные риски для критически важной для безопасности инфраструктуры. инфраструктуры.

  1. Автономное вождение: В области ИИ в автомобилестроении, системы визуального восприятия полагаются на обнаружение объектов для идентификации дорожных знаков. Исследователи продемонстрировали, что размещение определенных наклеек на знаке "Стоп" может привести к тому, что автономное транспортное средство автономный автомобиль может ошибочно классифицировать его как знак ограничения скорости. Этот тип атаки с применением физического противника подчеркивает необходимость чрезвычайной надежности систем компьютерного зрения, используемых на дорогах общего пользования.
  2. Биометрическая безопасность: Многие охраняемые объекты и устройства используют распознавание лиц для контроля доступа. Вражеские очки или печатные шаблоны могут быть разработаны таким образом, чтобы нарушить процесс извлечения признаков, что позволяет неавторизованный пользователь может обойти систему безопасности или выдать себя за конкретного человека.

Защита и устойчивость

Защита от этих угроз является ключевым компонентом безопасности ИИ. Такие платформы, как MITRE ATLAS, предоставляют базу знаний о тактике противника, чтобы помочь разработчикам в защите своих систем. Основной стратегией защиты является обучение противника, когда примеры противника генерируются и добавляются к обучающим данным. Это Это заставляет модель учиться игнорировать небольшие возмущения.

Еще один эффективный метод - увеличение данных. Если введение шума, отчетливой обрезки или эффекта мозаики во время обучения, модель лучше обобщается и становится менее хрупкой. На сайте NIST AI Risk Management Framework подчеркивает эти процедуры тестирования и проверки для снижения рисков безопасности.

Отличие от смежных понятий

Важно отличать атаки противника от аналогичных терминов в сфере безопасности:

  • Атаки противников по сравнению с отравлением данных: В то время как атаки противника манипулируют входными данными во время вывода чтобы обмануть обученную модель, отравление данных включает в себя повреждение набора данных до начала обучения, что нарушает целостность основы модели.
  • Адверсионные атаки по сравнению с оперативной инъекцией: Атаки злоумышленников обычно направлены на числовые или визуальные данные в дискриминационных моделях. В отличие от них, инъекция запроса специфична для Большие языковые модели (БЯМ), в которых Вредоносные текстовые инструкции отменяют программирование ИИ.

Повышение устойчивости модели

Следующий фрагмент на Python демонстрирует, как применить сильное усиление во время обучения с помощью Ultralytics YOLO11. Хотя это не приводит к генерации атак, использование таких техник, как MixUp и Mosaic, значительно повышает устойчивость модели к вариациям входных данных и потенциального враждебного шума.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас