Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Фальсификация данных

Узнайте о «отравлении» данных и его влиянии на ИИ. Узнайте, как обеспечить безопасность моделей Ultralytics и защитить обучающие данные с помощью Ultralytics .

«Отравление данных» — это угроза кибербезопасности, при которой злоумышленники намеренно манипулируют обучающими данными, используемыми для построения моделей машинного обучения (ML). Повреждая набор данных до начала обучения модели, злоумышленники могут внедрить скрытые бэкдоры, вызвать систематические ошибки или ухудшить общую производительность модели. В отличие от других уязвимостей, нацеленных на код системы, атаки с использованием «отравления данных» нацелены на сам процесс обучения, что делает их чрезвычайно сложными для detect развертывания модели в производственной среде. Согласно обзору IBM по аналитике угроз, эти атаки создают серьезные риски для целостности и надежности систем искусственного интеллекта.

Механизмы отравления ИИ

По мере того как организации все чаще полагаются на глубокое обучение (DL) и крупные языковые модели (LLM), они зачастую собирают из Интернета огромные объемы непроверенных данных. Такая практика создает возможности для внедрения данных, когда злоумышленники вставляют сфабрикованные или вредоносные данные в общедоступные хранилища. Недавние исследования по отравлению ИИ, проведенные в 2025 году, показывают тревожную реальность: даже в случае огромных моделей с миллиардами параметров злоумышленнику достаточно манипулировать практически постоянным, минимальным количеством образцов, чтобы скомпрометировать систему.

Отравление LLM происходит, когда в тексты, которые модель обрабатывает во время обучения, вставляются определенные триггерные фразы. После развертывания модель может работать нормально до тех пор, пока пользователь не введет триггерную фразу, что приведет к тому, что система обойдет протоколы безопасности или сгенерирует токсичные результаты. ИсследованиеAnthropic 2025 года по отравлению LLM демонстрирует, что всего 250 отравленных документов могут создать бэкдор в модели с 13 миллиардами параметров.

Примеры и применение в реальном мире

Проблема «отравления данных» выходит за рамки генерации текста и оказывает значительное влияние также на модели компьютерного зрения (CV). Ниже приведены два конкретных примера того, как эта угроза проявляется в реальных приложениях:

  • Обход моделей генеративного искусства: Такие инструменты, как проект Nightshade, позволяют цифровым художникам незаметно изменять пиксели своих работ перед их загрузкой в Интернет. Когда генеративная модель ИИ извлекает эти изображения для обучения, измененные пиксели действуют как «яд», заставляя модель полностью неправильно классифицировать запросы — например, генерировать изображение кошки при запросе на автомобиль.
  • Уязвимости автономных транспортных средств: В системах обнаружения объектов, используемых в беспилотных автомобилях, злоумышленник может незаметно изменить изображения знаков остановки в обучающем наборе данных с открытым исходным кодом. Благодаря добавлению специфического визуального шума, зараженные обучающие данные заставляют модель ошибочно интерпретировать знаки остановки как знаки ограничения скорости, что создает катастрофические риски для безопасности.

Отличие от атак типа «противник»

Несмотря на тесную взаимосвязь, важно проводить различие между «отравлением данных» и враждебными атаками. Враждебные атаки происходят во время инференса — злоумышленник манипулирует входными данными (например, наклеивает наклейку на реальный знак «Стоп»), чтобы обмануть уже обученную модель. Напротив, отравление данных происходит во время обучения, коренным образом изменяя внутреннюю логику модели с нуля. Решение обеих проблем требует надежных протоколов безопасности ИИ.

Снижение рисков при разработке моделей

Для защиты от этих угроз необходим тщательный мониторинг моделей и использование исходных, надежных валидационных данных для проверки целостности модели. Оценка модели на основе проверенного набора данных может помочь командам выявить неожиданные падения производительности, которые могут свидетельствовать о незаконном вмешательстве. Передовые практики, описанные в исследованиях OpenAI по безопасности и в проекте OWASP GenAI Security, подчеркивают важность строгого отслеживания происхождения данных и использования отборных наборов данных вместо необработанных данных, полученных путем веб-парсинга.

При построении и тестировании моделей командам следует использовать проверенные фреймворки, такие как PyTorch или TensorFlow наряду с комплексными процедурами валидации. Вы можете легко проверить свою модель Ultralytics на чистом, надежном наборе данных, чтобы убедиться, что точность не пострадала.

from ultralytics import YOLO

# Load a custom-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a trusted dataset to detect performance drops
# Sudden decreases in precision/recall may indicate data poisoning
metrics = model.val(data="clean_validation_data.yaml")

print(f"mAP50-95: {metrics.box.map}")  # Review core metrics

Для крупномасштабных проектов в области компьютерного зрения крайне важно отслеживать эти показатели на протяжении нескольких циклов обучения. Разработчики могут изучать результаты оценки моделей, чтобы понять их базовую производительность, а также использовать Ultralytics для безопасного аннотирования, обучения и управления данными, не полагаясь на непроверенные внешние источники. Сочетание безопасной подготовки данных с контролируемыми методами расширения данных помогает обеспечить точность ваших моделей и их устойчивость к внешнему вмешательству.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения