Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Jailbreaking (AI)

Khám phá cách AI jailbreaking vượt qua các rào cản an toàn và tìm hiểu cách giảm thiểu rủi ro. Bảo vệ các model Ultralytics YOLO26 bằng hệ thống giám sát và phòng thủ mạnh mẽ.

Jailbreaking trong ngữ cảnh trí tuệ nhân tạo đề cập đến việc vượt qua các rào cản đạo đức, bộ lọc an toàn và các ràng buộc vận hành được lập trình trong một model AI. Vốn là một thuật ngữ dùng để vượt qua các hạn chế phần cứng trên các thiết bị như điện thoại thông minh, AI jailbreaking liên quan đến việc tạo ra các đầu vào cụ thể, thường mang tính thao túng, nhằm đánh lừa model để tạo ra nội dung bị hạn chế, thực thi các lệnh trái phép hoặc tiết lộ các system prompt nhạy cảm. Khi AI ngày càng được tích hợp sâu vào cơ sở hạ tầng quan trọng, việc hiểu rõ các lỗ hổng này là điều cần thiết để phát triển các biện pháp an toàn AI mạnh mẽ và ngăn chặn việc lạm dụng.

Link to this sectionPhân biệt Jailbreaking với các khái niệm liên quan#

Mặc dù jailbreaking có những điểm tương đồng với các lỗ hổng bảo mật khác trong học máy, nhưng điều quan trọng là phải phân biệt nó với các thuật ngữ liên quan:

  • Prompt Injection: Điều này liên quan đến việc chèn các chỉ dẫn độc hại vào một prompt người dùng hợp lệ để chiếm quyền kiểm soát đầu ra dự kiến của model. Jailbreaking là một danh mục rộng hơn, đặc biệt nhắm vào việc ghi đè hoàn toàn các giao thức an toàn cốt lõi của model.
  • AI Red Teaming: Đây là một phương pháp kiểm thử chủ động, được ủy quyền, trong đó các chuyên gia bảo mật cố tình thử jailbreak hệ thống nhằm xác định và vá các lỗ hổng trước khi triển khai.
  • Adversarial Attacks: Thường được sử dụng trong computer vision, các cuộc tấn công này bao gồm việc thay đổi tinh vi dữ liệu đầu vào (như thêm nhiễu vô hình vào ảnh) để ép model đưa ra kết quả phân loại sai, trong khi jailbreaking thường tập trung vào việc thao túng ngôn ngữ hoặc logic.

Link to this sectionCác ví dụ thực tế về AI Jailbreaking#

Jailbreaking biểu hiện khác nhau tùy thuộc vào phương thức của hệ thống AI, ảnh hưởng đến cả kiến trúc dựa trên văn bản và hình ảnh:

  1. Khai thác Large Language Models: Những kẻ tấn công thường sử dụng các kịch bản nhập vai phức tạp hoặc khung lý thuyết giả định để ép large language models bỏ qua quá trình đào tạo an toàn của chúng. Ví dụ, người dùng có thể yêu cầu AI đóng vai một "tác giả hư cấu đang viết câu chuyện về một hacker," từ đó thành công trong việc đánh lừa model xuất ra mã độc hoặc các hướng dẫn cho các hoạt động nguy hiểm mà bộ lọc của nó thường sẽ chặn lại. Nghiên cứu gần đây của Anthropic cũng đã nêu bật các phương pháp nâng cao như kỹ thuật many-shot jailbreaking, làm quá tải cửa sổ ngữ cảnh của model để vượt qua các hạn chế.

  2. Các cuộc tấn công hệ thống Multimodal và Vision: Khi các model phát triển để xử lý cả văn bản và hình ảnh, nghiên cứu gần đây về jailbreak đa phương thức chứng minh rằng kẻ tấn công có thể nhúng các hướng dẫn văn bản độc hại vào trong một hình ảnh. Khi một model vision-language xử lý hình ảnh đó, văn bản ẩn sẽ kích hoạt một cuộc jailbreak. Trong các hệ thống an ninh vật lý, các đầu vào adversarial—chẳng hạn như một miếng dán có hoa văn cụ thể trên quần áo—có thể đóng vai trò như một jailbreak thị giác, khiến người đó trở nên vô hình đối với các model giám sát tự động.

Link to this sectionGiảm thiểu rủi ro Jailbreak trong các model AI#

Việc bảo mật các model chống lại các cuộc tấn công này đòi hỏi một chiến lược phòng thủ nhiều lớp. Các nhà phát triển tuân thủ các hướng dẫn an toàn của OpenAI và các khung làm việc như NIST AI Risk Management Framework để thiết lập nền tảng bảo mật cơ bản.

Để ngăn chặn các cuộc tấn công adversarial thị giác, các kỹ sư dựa vào data augmentation toàn diện trong quá trình huấn luyện. Bằng cách cố tình đưa vào nhiễu, làm mờ và thay đổi các điều kiện ánh sáng, model học cách duy trì độ chính xác cao ngay cả khi đối mặt với các đầu vào đã bị thao túng. Hơn nữa, việc liên tục giám sát các model đã triển khai bằng các công cụ có sẵn trên Ultralytics Platform giúp xác định các mẫu inference bất thường có thể chỉ ra một cuộc tấn công đang diễn ra, đảm bảo data security mạnh mẽ cho các triển khai doanh nghiệp.

Link to this sectionKiểm thử tính bền vững của model#

Để đảm bảo các model computer vision của bạn có khả năng chống lại các thao tác đầu vào tinh vi, bạn có thể mô phỏng các kịch bản adversarial machine learning cơ bản bằng Python. Điều này giúp xác minh rằng một model như Ultralytics YOLO26 tiếp tục hoạt động ổn định khi tiếp xúc với dữ liệu nhiễu hoặc bị thay đổi nhẹ.

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

Bằng cách chủ động kiểm tra các lỗ hổng và kết hợp các biện pháp an toàn mạnh mẽ, các nhà phát triển có thể học cách giảm thiểu các vụ jailbreak AI, thúc đẩy sự tin tưởng và độ tin cậy trong các hệ thống AI hiện đại. Để hiểu sâu hơn về hành vi và khả năng diễn giải của model, hãy khám phá các nguyên tắc của explainable AI.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning