Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Безопасность ИИ

Узнайте о безопасности ИИ, важнейшей области для предотвращения непреднамеренного вреда от систем ИИ. Откройте для себя ее ключевые принципы, реальные применения и роль в ответственном ИИ.

Безопасность ИИ — это междисциплинарная область, направленная на обеспечение надежной, предсказуемой и полезной работы систем искусственного интеллекта (ИИ). В отличие от кибербезопасности, которая защищает системы от внешних атак, безопасность ИИ направлена на устранение рисков, связанных с проектированием и эксплуатацией самой системы. Сюда входит предотвращение непреднамеренных последствий, возникающих в результате несоответствия целей, недостаточной устойчивости в новых средах или сбоев в обобщении глубокого обучения (DL). По мере того как модели становятся более автономными, исследователи из таких организаций, как Центр по разработке ИИ, совместимого с человеком, работают над тем, чтобы эти технологии соответствовали намерениям человека и стандартам безопасности.

Основные принципы безопасного искусственного интеллекта

Создание безопасной системы требует решения нескольких технических задач, выходящих за рамки простых показателей точности. Эти основные принципы гарантируют, что модели машинного обучения (ML) остаются под контролем даже при развертывании в сложных реальных сценариях.

  • Надежность: безопасная модель должна сохранять производительность при столкновении с поврежденными входными данными или изменениями в окружающей среде. Это включает в себя защиту от враждебных атак, когда тонкие манипуляции с входными данными могут обмануть модель и заставить ее совершить ошибки с высокой степенью достоверности.
  • Согласованность: этот принцип гарантирует, что цели ИИ соответствуют истинным намерениям разработчика. Несогласованность часто возникает в процессе обучения с подкреплением, когда система начинает «обманывать» свою функцию вознаграждения — например, робот-уборщик разбивает вазу, чтобы быстрее убрать беспорядок. Для смягчения этой проблемы используются такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) .
  • Интерпретируемость: также известная как объяснимая ИИ (XAI), она предполагает создание прозрачности в моделях «черного ящика». Визуализация карт признаков позволяет инженерам понять процесс принятия решений, гарантируя, что модель не полагается на ложные корреляции.
  • detect ниторинг: Непрерывный мониторинг модели необходим для обнаружения смещения данных. Протоколы безопасности должны запускать оповещения или резервные механизмы, если реальные данные начинают значительно отклоняться от учебных данных.

Применение в реальном мире

Безопасность ИИ имеет первостепенное значение в сферах с высокими рисками, где сбой алгоритмов может привести к физическому ущербу или значительным экономическим потерям.

  1. Автономные транспортные средства: В области искусственного интеллекта в автомобилестроении рамки безопасности определяют, как автомобиль реагирует на неопределенность. Если модель обнаружения объектов не может с высокой степенью уверенности идентифицировать препятствие, система должна по умолчанию перейти в безопасное состояние, например, затормозить, а не пытаться угадать. В руководстве NHTSA по автоматизированным транспортным средствам подчеркивается важность этих механизмов защиты от сбоев.
  2. Медицинская диагностика: при применении ИИ в здравоохранении безопасность предполагает минимизацию ложноотрицательных результатов при критических диагнозах. Системы часто настраиваются на высокую точность, чтобы не пропустить ни одного потенциального заболевания, фактически выполняя функцию «второго мнения» для врачей. Регулирующие органы, такие как Центр цифрового здравоохранения FDA, устанавливают строгие стандарты для программного обеспечения, используемого в качестве медицинского устройства (SaMD).

Внедрение пороговых значений безопасности

Одним из самых базовых механизмов безопасности в компьютерном зрении является использование пороговых значений достоверности. Отфильтровывая предсказания с низкой вероятностью во время вывода, разработчики предотвращают действия систем на основе слабой информации.

Следующий пример демонстрирует, как применить фильтр безопасности с помощью Ultralytics , гарантируя, что будут обрабатываться только надежные обнаружения .

from ultralytics import YOLO

# Load the YOLO26 model (latest standard for efficiency)
model = YOLO("yolo26n.pt")

# Run inference with a strict confidence threshold of 0.7 (70%)
# This acts as a safety gate to ignore uncertain predictions
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.7)

# Verify detections meet safety criteria
print(f"Safety Check: {len(results[0].boxes)} objects detected with >70% confidence.")

Безопасность ИИ против Этики ИИ

Хотя эти термины часто используются как синонимы, они относятся к разным аспектам ответственного ИИ.

  • Безопасность ИИ — это техническая инженерная дисциплина. Она задает вопрос: «Будет ли эта система функционировать правильно, не вызывая аварий?» Она занимается такими проблемами, как галлюцинации модели и безопасное исследование в усиленном обучении.
  • Этика ИИ — это социотехническая конструкция. Она задает вопрос: «Должны ли мы создавать эту систему и справедливо ли это?» Она фокусируется на таких вопросах, как алгоритмическая предвзятость, права на неприкосновенность частной жизни и справедливое распределение выгод, как указано в Законе ЕС об ИИ.

Перспективы на будущее

По мере продвижения отрасли к искусственному общему интеллекту (AGI) исследования в области безопасности становятся все более важными. Организации могут использовать Ultralytics для управления своими наборами данных и контроля развертывания моделей, обеспечивая, чтобы их решения в области ИИ оставались надежными, прозрачными и соответствовали стандартам безопасности на протяжении всего их жизненного цикла.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас