Глоссарий

Безопасность ИИ

Узнайте о безопасности ИИ, важнейшей области для предотвращения непреднамеренного вреда от систем ИИ. Откройте для себя ее ключевые принципы, реальные применения и роль в ответственном ИИ.

Безопасность ИИ - это специальная область в рамках искусственного интеллекта (ИИ), направленная на обеспечение надежной, предсказуемой работы систем ИИ, не причиняющей непреднамеренного вреда. По мере того как модели глубокого обучения (DL) становятся все более автономными и интегрируются в критически важную инфраструктуру, потенциальные последствия отказов систем значительно возрастают. На сайте Основной задачей безопасности ИИ является выявление, анализ и снижение рисков, возникающих в результате технических сбоев, неожиданного поведения или несоответствия между целями ИИ и человеческими ценностями. Эта дисциплина включает в себя широкий спектр практик, от тщательного тестирования моделей до разработки математических гарантий поведения системы.

Основные принципы безопасности искусственного интеллекта

Чтобы создать надежные системы, исследователи и инженеры уделяют особое внимание нескольким основополагающим принципам, которые обеспечивают модели машинного обучения (ML) работают правильно в различных условиях.

Надежность: Надежная система должна сохранять производительность даже при столкновении с неожиданными данными или неожиданных данных или неблагоприятных условий. Это включает в себя защиту от атак противника, когда вредоносные входные данные подготавливаются, чтобы обмануть модель. Например. система компьютерного зрения (CV) не должна неправильно распознавать знак "Стоп" только из-за наклейки или плохого освещения.
Согласование: Это относится к задаче разработки систем ИИ, цели которых точно отражают намерения человека. Несогласованность может возникнуть, если модель найдет "короткий путь" для достижения высокой оценки по своей функции потерь, нарушая при этом ограничения безопасности. Эта концепция активно изучается Центром человекосовместимого ИИ.
Интерпретируемость: Также известен как Объяснимый ИИ (XAI), этот принцип заключается в создании моделей, понятных человеку. Если система принятия решений дает сбой, инженеры должны иметь возможность проверить внутренние веса модели или карты активации чтобы диагностировать ошибку и предотвратить ее повторение.
Мониторинг: Непрерывный непрерывный мониторинг модели необходим для detect дрейфа данных, когда данные, с которыми модель сталкивается в реальном мире расходятся с данными обучения, что может привести к небезопасным прогнозам.

Применение в реальном мире

Безопасность ИИ - это не просто теория, это критическое требование для внедрения ИИ в автомобильной промышленности и здравоохранении.

Автономное вождение: Самостоятельно управляемые автомобили полагаются на модели обнаружения объектов для идентификации пешеходов, других транспортных средств и препятствий. Протоколы безопасности здесь включают в себя избыточность - использование LiDAR и радаров наряду с камерами - и "оценка неопределенности", когда автомобиль замедляется или запрашивает вмешательство человека, если ИИ не уверен в отношении какого-либо объекта. Такие организации, как Waymo, публикуют подробные методики безопасности для проверки этих систем восприятия.
Медицинская диагностика: На сайте Анализ медицинских изображений, ИИ, помогающий радиологам, должен обеспечивать максимальную точность при минимизации ложных отрицательных результатов. Механизмы безопасности часто включают в себя рабочий процесс "человек в контуре", когда ИИ только отмечает потенциальные проблемы для проверки врачом, а не для самостоятельной постановки окончательного диагноза, обеспечивая безопасность пациента. приоритет, как подчеркивается в ИИ в решениях для здравоохранения.

Реализация порогов безопасности в коде

Одним из основных методов повышения безопасности развертывания является применение строгих порогов доверия. Игнорируя ИИ-агент не может действовать на основе слабых или зашумленных данных.

Следующий пример демонстрирует, как фильтровать предсказания с помощью Ultralytics YOLO11 обеспечивая обработку только высокоточных обнаружения.

from ultralytics import YOLO

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Perform inference on an image with a strict confidence threshold
# This ensures the model only reports objects it is at least 70% sure about
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.70)

# Process only the safe, high-confidence detections
for result in results:
    print(f"Detected {len(result.boxes)} objects exceeding safety threshold.")