Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Jailbreaking (AI)

Изучи, как джейлбрейк ИИ обходит защитные барьеры, и узнай, как снизить риски. Защити модели Ultralytics YOLO26 с помощью надежных методов защиты и мониторинга.

Джейлбрейк в контексте искусственного интеллекта относится к практике обхода этических ограничений, фильтров безопасности и операционных рамок, запрограммированных в модель ИИ. Изначально этот термин использовался для обхода аппаратных ограничений на устройствах, таких как смартфоны, а применительно к ИИ джейлбрейк подразумевает создание специфических, зачастую манипулятивных входных данных, которые заставляют модель генерировать запрещенный контент, выполнять несанкционированные команды или раскрывать конфиденциальные системные промпты. Поскольку ИИ всё активнее интегрируется в критически важную инфраструктуру, понимание этих уязвимостей необходимо для разработки надежных мер безопасности ИИ и предотвращения их неправомерного использования.

Link to this sectionОтличие джейлбрейка от смежных понятий#

Хотя джейлбрейк имеет общие черты с другими уязвимостями безопасности в машинном обучении, важно отличать его от близких по смыслу терминов:

  • Промпт-инъекция: Это предполагает вставку вредоносных инструкций в легитимный запрос пользователя с целью перехвата целевого результата модели. Джейлбрейк — это более широкая категория, целью которой является именно полный обход основных протоколов безопасности модели.
  • Red Teaming в ИИ: Это авторизованная проактивная методология тестирования, в рамках которой специалисты по безопасности намеренно пытаются совершить джейлбрейк системы, чтобы выявить и устранить уязвимости до её развертывания.
  • Состязательные атаки: Часто применяемые в компьютерном зрении, они включают в себя тонкое изменение входных данных (например, добавление невидимого шума к изображению), чтобы заставить модель совершить ошибку классификации, в то время как джейлбрейк обычно фокусируется на лингвистической или логической манипуляции.

Link to this sectionРеальные примеры джейлбрейка ИИ#

Джейлбрейк проявляется по-разному в зависимости от модальности системы ИИ, затрагивая как текстовые, так и визуальные архитектуры:

  1. Использование больших языковых моделей: Злоумышленники часто используют сложные сценарии ролевых игр или гипотетические рамки, чтобы заставить большие языковые модели игнорировать их обучение по безопасности. Например, пользователь может попросить ИИ выступить в роли «вымышленного автора, пишущего рассказ о хакере», успешно обманув модель и заставив её выдать вредоносный код или инструкции для опасных действий, которые обычно блокируются фильтрами. Недавние исследования Anthropic также осветили продвинутые методы, такие как джейлбрейк с множеством запросов, которые перегружают контекстное окно модели для обхода ограничений.

  2. Атаки на мультимодальные и визуальные системы: По мере того как модели развиваются, обрабатывая как текст, так и изображения, недавние исследования мультимодальных джейлбрейков показывают, что злоумышленники могут внедрять вредоносные текстовые инструкции внутрь изображения. Когда визуально-языковая модель обрабатывает изображение, скрытый текст инициирует джейлбрейк. В физических системах безопасности состязательные входные данные, такие как специально подобранный узор на одежде, могут выступать в качестве визуального джейлбрейка, делая человека невидимым для автоматизированных моделей наблюдения.

Link to this sectionСнижение рисков джейлбрейка в моделях ИИ#

Защита моделей от подобных эксплойтов требует многоуровневой стратегии обороны. Разработчики следуют руководствам по безопасности OpenAI и таким фреймворкам, как NIST AI Risk Management Framework, чтобы установить базовый уровень безопасности.

Для предотвращения визуальных состязательных атак инженеры полагаются на комплексную аугментацию данных во время обучения. Намеренно добавляя шум, размытие и варьируя условия освещенности, модель учится поддерживать высокую точность даже при столкновении с манипулируемыми входными данными. Более того, постоянный мониторинг развернутых моделей с помощью инструментов, доступных на платформе Ultralytics, помогает выявлять необычные шаблоны инференса, которые могут указывать на продолжающуюся атаку, обеспечивая надежную безопасность данных для корпоративных развертываний.

Link to this sectionТестирование устойчивости модели#

Чтобы убедиться, что твои модели компьютерного зрения устойчивы к тонким манипуляциям с входными данными, ты можешь смоделировать базовые сценарии состязательного машинного обучения с помощью Python. Это поможет проверить, что такая модель, как Ultralytics YOLO26, продолжает работать надежно при воздействии зашумленных или слегка измененных данных.

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

Активно тестируя уязвимости и внедряя надежные меры безопасности, разработчики могут успешно узнать, как можно смягчить последствия джейлбрейков ИИ, укрепляя доверие и надежность современных систем ИИ. Для более глубокого понимания поведения моделей и интерпретируемости изучи принципы объяснимого ИИ.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения