Глоссарий

Атаки противника

Узнайте о влиянии атак противника на системы ИИ, их типах, реальных примерах и стратегиях защиты для повышения безопасности ИИ.

Атаки на противника - это техника, используемая для обмана моделей машинного обучения путем предоставления им вредоносных, намеренно разработанных входных данных. Эти исходные данные, известные как примеры противника, создаются путем внесения тонких изменений в легитимные данные. Изменения часто настолько малы, что незаметны для человеческого глаза, но могут заставить нейронную сеть сделать неверный прогноз с высокой степенью достоверности. Эта уязвимость представляет собой серьезную проблему для безопасности систем искусственного интеллекта, особенно в критически важных приложениях компьютерного зрения, где надежность и точность имеют первостепенное значение.

Как работают состязательные атаки

Атаки противника используют способ обучения и принятия решений моделями глубокого обучения. Модель учится распознавать паттерны, определяя "границу принятия решения", которая разделяет различные категории данных. Задача злоумышленника - найти наиболее эффективный способ изменить входные данные так, чтобы они пересекли эту границу, что приведет к неправильной классификации. Добавляемое возмущение - это не случайный шум, а тщательно рассчитанный сигнал, призванный использовать специфические слабости модели. Исследования таких институтов, как Университет Карнеги-Меллон, позволяют глубоко изучить эти механизмы.

Типы атак противника

Атаки обычно классифицируются на основе знаний злоумышленника о целевой модели.

  • Атаки из белого ящика: Злоумышленник полностью знает архитектуру модели, ее параметры и обучающие данные. Такой полный доступ позволяет создавать высокоэффективные атаки, такие как метод быстрого градиентного знака (FGSM), которые позволяют проверить устойчивость модели.
  • Атаки "черного ящика": Атакующий не имеет внутренних знаний о модели и может только запрашивать ее, предоставляя входные данные и наблюдая за ее выходами. Эти атаки более реалистичны в реальных сценариях. Они часто опираются на принцип переносимости, когда враждебный пример, созданный для обмана одной модели, скорее всего, обманет и другую - феномен, изученный исследователями из Google AI.

Примеры из реальной жизни

  1. Ошибки классификации при распознавании изображений: Известный пример - модель классификации изображений, которая правильно идентифицирует изображение панды. После добавления незаметного слоя неблагоприятного шума та же модель с высокой степенью вероятности ошибочно классифицирует изображение как гиббона.
  2. Обман автономных систем: Исследователи успешно продемонстрировали, что размещение простых наклеек на знаке "Стоп" может обмануть модель обнаружения объектов в автономном автомобиле. Модель может ошибочно идентифицировать знак как "Ограничение скорости 45", что является критической ошибкой для любого ИИ в автомобильных системах. Такие атаки известны как атаки физического противника.

Защита от состязательных атак

Защита моделей от этих угроз является активной областью исследований. Общие стратегии защиты включают:

  • Обучение противника: На сегодняшний день это один из самых эффективных способов защиты. Он заключается в генерировании неблагоприятных примеров и включении их в обучающий набор модели. Этот процесс, являющийся формой дополнения данных, помогает модели научиться игнорировать возмущения противника и строить более надежные представления.
  • Предварительная обработка входных данных: Применение таких преобразований, как размытие, шумоподавление или сжатие JPEG, к входным изображениям перед их подачей в модель иногда позволяет удалить или уменьшить неблагоприятный шум.
  • Объединение моделей: Объединение прогнозов нескольких различных моделей может усложнить злоумышленнику задачу по созданию одного примера, который обманет все модели одновременно.

Будущее состязательного машинного обучения

Сферу состязательного ИИ часто описывают как непрерывную "гонку вооружений", в которой постоянно появляются новые атаки и средства защиты. Создание надежного ИИ требует надежных методов разработки и тестирования. Такие механизмы, как MITRE ATLAS for Adversarial Threat-informed Defense, помогают организациям понять эти угрозы и подготовиться к ним. Такие организации, как NIST, и компании, подобные Microsoft, активно исследуют средства защиты. Использование принципов объяснимого ИИ (XAI) помогает выявить уязвимости, а соблюдение этических норм ИИ способствует ответственному развертыванию моделей. Постоянные исследования и бдительность гарантируют, что такие модели, как Ultralytics YOLO11, могут быть безопасно и надежно развернуты в реальных приложениях. Чтобы узнать больше о безопасной разработке моделей, изучите наши учебные пособия и рассмотрите возможность использования таких платформ, как Ultralytics HUB, для оптимизации и обеспечения безопасности рабочих процессов.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена