Thuật ngữ

Bẻ khóa (AI)

Khám phá cách thức bẻ khóa AI vượt qua các rào cản an toàn và tìm hiểu cách giảm thiểu rủi ro. Bảo vệ các mô hình Ultralytics bằng các biện pháp phòng vệ và giám sát hiệu quả.

Trong bối cảnh trí tuệ nhân tạo, thuật ngữ “jailbreaking” dùng để chỉ hành vi vượt qua các rào cản đạo đức, bộ lọc an toàn và các hạn chế vận hành được lập trình sẵn trong mô hình AI. Ban đầu là thuật ngữ dùng để chỉ việc vượt qua các hạn chế phần cứng trên các thiết bị như điện thoại thông minh, jailbreaking trong AI liên quan đến việc tạo ra các đầu vào cụ thể, thường mang tính thao túng, nhằm lừa mô hình tạo ra nội dung bị hạn chế, thực thi các lệnh không được phép hoặc tiết lộ các lời nhắc hệ thống nhạy cảm. Khi AI ngày càng được tích hợp vào các hệ thống cơ sở hạ tầng quan trọng, việc hiểu rõ những lỗ hổng này là điều thiết yếu để phát triển các biện pháp an toàn AI vững chắc và ngăn chặn việc lạm dụng.

Phân biệt việc bẻ khóa (jailbreaking) với các khái niệm liên quan

Mặc dù jailbreaking có những điểm tương đồng với các lỗ hổng bảo mật khác trong lĩnh vực học máy, nhưng điều quan trọng là phải phân biệt nó với các thuật ngữ liên quan:

Tiêm lệnh vào lời nhắc: Phương pháp này bao gồm việc chèn các lệnh độc hại vào lời nhắc hợp lệ của người dùng nhằm chiếm quyền kiểm soát kết quả đầu ra dự kiến của mô hình. Jailbreaking là một khái niệm rộng hơn , nhằm mục đích cụ thể là vô hiệu hóa hoàn toàn các giao thức an toàn cốt lõi của mô hình.
Kiểm tra an ninh bằng phương pháp AI Red Teaming: Đây là một phương pháp kiểm tra có sự cho phép và chủ động, trong đó các chuyên gia an ninh cố tình tìm cách xâm nhập hệ thống nhằm phát hiện và khắc phục các lỗ hổng trước khi triển khai.
Các cuộc tấn công đối kháng: Thường được sử dụng trong lĩnh vực thị giác máy tính, các cuộc tấn công này liên quan đến việc thay đổi một cách tinh vi dữ liệu đầu vào (chẳng hạn như thêm nhiễu vô hình vào hình ảnh) để buộc mô hình đưa ra kết quả phân loại sai, trong khi việc bẻ khóa thường tập trung vào việc thao túng ngôn ngữ hoặc logic.

Các ví dụ thực tế về việc bẻ khóa AI

Việc bẻ khóa (jailbreaking) thể hiện dưới các hình thức khác nhau tùy thuộc vào phương thức hoạt động của hệ thống AI, ảnh hưởng đến cả các kiến trúc dựa trên văn bản và các kiến trúc dựa trên hình ảnh:

Lợi dụng các mô hình ngôn ngữ quy mô lớn: Kẻ tấn công thường sử dụng các kịch bản đóng vai phức tạp hoặc các khung giả định để buộc các mô hình ngôn ngữ quy mô lớn bỏ qua quá trình huấn luyện an toàn của chúng. Ví dụ, một người dùng có thể yêu cầu AI đóng vai một "tác giả hư cấu đang viết một câu chuyện về một hacker", từ đó thành công lừa mô hình tạo ra mã độc hoặc hướng dẫn thực hiện các hoạt động nguy hiểm mà bình thường các bộ lọc của mô hình sẽ chặn lại. Nghiên cứu gần đây của Anthropic cũng Anthropic nêu bật các phương pháp tiên tiến như các kỹ thuật "jailbreaking" nhiều lần, vốn làm quá tải cửa sổ ngữ cảnh của mô hình để vượt qua các hạn chế.
Các cuộc tấn công vào hệ thống đa phương thức và thị giác: Khi các mô hình ngày càng phát triển để xử lý cả văn bản và hình ảnh, các nghiên cứu gần đây về các cuộc tấn công “jailbreak” đa phương thức cho thấy kẻ tấn công có thể nhúng các lệnh văn bản độc hại vào trong hình ảnh. Khi mô hình thị giác-ngôn ngữ xử lý hình ảnh đó, đoạn văn bản ẩn sẽ kích hoạt cuộc tấn công “jailbreak”. Trong các hệ thống an ninh vật lý, các đầu vào đối kháng—chẳng hạn như một miếng vá có hoa văn cụ thể trên quần áo—có thể hoạt động như một cuộc tấn công thoát khỏi giới hạn thị giác, khiến người đó trở nên vô hình đối với các mô hình giám sát tự động.

Giảm thiểu rủi ro bẻ khóa trong các mô hình AI

Để bảo vệ các mô hình khỏi những lỗ hổng này, cần có một chiến lược phòng thủ đa tầng. Các nhà phát triển tuân thủ các hướng dẫn và khung tiêu chuẩn về an toàn của OpenAI, chẳng hạn như Khung Quản lý Rủi ro Trí tuệ Nhân tạo của NIST, nhằm thiết lập mức độ bảo mật cơ bản.

Để ngăn chặn các cuộc tấn công đối kháng về hình ảnh, các kỹ sư dựa vào việc tăng cường dữ liệu toàn diện trong quá trình huấn luyện. Bằng cách cố ý thêm nhiễu, làm mờ và thay đổi điều kiện ánh sáng, mô hình học cách duy trì độ chính xác cao ngay cả khi phải đối mặt với các đầu vào đã bị thao túng. Hơn nữa, việc liên tục giám sát các mô hình đã triển khai bằng các công cụ có sẵn trên Ultralytics giúp phát hiện các mẫu suy luận bất thường có thể cho thấy một cuộc tấn công đang diễn ra, đảm bảo an ninh dữ liệu vững chắc cho các triển khai tại doanh nghiệp.

Kiểm tra độ bền vững của mô hình

Để đảm bảo các mô hình thị giác máy tính của bạn có khả năng chống chịu trước những thao tác can thiệp tinh vi vào dữ liệu đầu vào, bạn có thể mô phỏng các kịch bản học máy đối kháng cơ bản bằng Python. Điều này giúp xác minh rằng một mô hình như Ultralytics vẫn hoạt động ổn định khi phải xử lý dữ liệu bị nhiễu hoặc bị thay đổi nhẹ.

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

Bằng cách chủ động kiểm tra các lỗ hổng bảo mật và áp dụng các biện pháp an toàn chặt chẽ, các nhà phát triển có thể tìm ra cách giảm thiểu rủi ro từ việc “phá vỡ giới hạn” của AI, từ đó xây dựng niềm tin và độ tin cậy vào các hệ thống AI hiện đại. Để hiểu sâu hơn về hành vi của mô hình và khả năng giải thích, hãy tìm hiểu các nguyên tắc của AI có thể giải thích được.

Bẻ khóa (AI)

Xuất ra hơn 17 định dạng. Triển khai tại 43 khu vực toàn cầu.

Huấn luyện YOLO26 trên GPU H100 với giá 2,39 đô la/giờ.

Giấy phép doanh nghiệp linh hoạt để thúc đẩy các dự án AI thị giác của bạn.

Giấy phép doanh nghiệp được thiết kế để hỗ trợ dự án tiếp theo của bạn.

Gán nhãn nhanh hơn tới 10 lần với tính năng gán nhãn thông minh

Ghi chú. Đào tạo. Triển khai. Tất cả trong một nền tảng.

Phân biệt việc bẻ khóa (jailbreaking) với các khái niệm liên quan

Các ví dụ thực tế về việc bẻ khóa AI

Giảm thiểu rủi ro bẻ khóa trong các mô hình AI

Kiểm tra độ bền vững của mô hình

Đọc thêm trong danh mục này

Cách xuấtYOLO Ultralytics bằng Ultralytics

Phát hiện việc xếp pallet không an toàn bằng Ultralytics

Hướng dẫn về cách chú thích đa giác với Ultralytics Nền tảng

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!