Khám phá cách tiêm prompt (prompt injection) khai thác các lỗ hổng AI, tác động đến bảo mật và tìm hiểu các chiến lược để bảo vệ các hệ thống AI khỏi các cuộc tấn công độc hại.
Tiêm lệnh nhanh là một lỗ hổng bảo mật nghiêm trọng ảnh hưởng đến các hệ thống được xây dựng trên Mô hình Ngôn ngữ Lớn (LLM) và các công nghệ AI tạo sinh khác. Lỗi này xảy ra khi người dùng độc hại tạo ra một đầu vào cụ thể - thường được ngụy trang dưới dạng một truy vấn thông thường - để lừa mô hình AI bỏ qua các lệnh ban đầu do nhà phát triển thiết lập và thực thi các lệnh không mong muốn. Giống như cách tiêm lệnh SQL cho phép kẻ tấn công thao túng cơ sở dữ liệu bằng cách can thiệp vào các truy vấn phụ trợ, tiêm lệnh nhanh nhắm vào logic Xử lý Ngôn ngữ Tự nhiên (NLP) , lợi dụng thực tế là nhiều mô hình hiện đại xử lý dữ liệu người dùng và lệnh hệ thống trong cùng một cửa sổ ngữ cảnh.
Trong một ứng dụng AI thông thường, nhà phát triển cung cấp một "lời nhắc hệ thống" xác định các quy tắc, nhân vật và ranh giới an toàn cho tác nhân AI . Tuy nhiên, vì LLM được thiết kế để tuân thủ các hướng dẫn một cách trôi chảy, chúng có thể gặp khó khăn trong việc phân biệt giữa lời nhắc hệ thống có thẩm quyền và dữ liệu đầu vào của người dùng. Một cuộc tấn công chèn lời nhắc thành công sẽ vượt qua các rào cản an toàn của hệ thống, có khả năng dẫn đến rò rỉ dữ liệu, hành động trái phép hoặc tạo ra nội dung độc hại. Mối đe dọa này hiện được xếp hạng là mối quan tâm hàng đầu trong Top 10 của OWASP về Ứng dụng LLM , làm nổi bật tầm quan trọng của nó trong bối cảnh an ninh mạng.
Các cuộc tấn công tiêm mã độc nhanh chóng có thể biểu hiện theo nhiều cách khác nhau, từ trò đùa vui cho đến vi phạm an ninh nghiêm trọng.
Mặc dù ban đầu được liên kết với các mô hình chỉ có văn bản, việc chèn dấu nhắc đang ngày càng trở nên quan trọng trong thị giác máy tính (CV) do sự gia tăng của các mô hình đa phương thức . Các Mô hình Ngôn ngữ Thị giác (VLM) như CLIP hoặc các bộ phát hiện từ vựng mở cho phép người dùng xác định đối tượng cần tìm bằng cách sử dụng mô tả văn bản.
Ví dụ, trong các mô hình như YOLO -World , các lớp cần phát hiện được xác định bằng lời nhắc văn bản. Về mặt lý thuyết, một đầu vào độc hại có thể thao túng không gian nhúng để phân loại sai đối tượng hoặc bỏ qua các mối đe dọa.
Đoạn mã sau đây minh họa cách giao diện nhắc nhở văn bản với mô hình thị giác, biểu diễn điểm vào nơi có thể xảy ra các nỗ lực tiêm mã độc:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Điều quan trọng là phải phân biệt thuật ngữ tiêm nhanh với các thuật ngữ khác trong hệ sinh thái AI:
Để phòng chống lại việc tiêm thuốc ngay lập tức cần phải có phương pháp phòng thủ chuyên sâu vì hiện nay không có giải pháp đơn lẻ nào là hoàn hảo.
Các tổ chức nên tham khảo các khuôn khổ như Khung quản lý rủi ro AI của NIST để triển khai các biện pháp bảo mật toàn diện cho việc triển khai AI của mình.