Bảng chú giải thuật ngữ

Tấn công đối nghịch (Adversarial Attacks)

Khám phá tác động của các cuộc tấn công đối nghịch vào hệ thống AI, các loại tấn công, ví dụ thực tế và các chiến lược phòng thủ để tăng cường bảo mật AI.

Tấn công đối kháng là một kỹ thuật tinh vi được sử dụng để đánh lừa các mô hình học máy bằng cách đưa các nhiễu loạn tinh vi, được thiết kế có chủ đích vào dữ liệu đầu vào. Những thay đổi này, thường không thể nhận thấy bằng mắt thường, thao túng các phép toán trong mạng nơ-ron , khiến nó đưa ra những dự đoán có độ tin cậy cao nhưng không chính xác. Khi trí tuệ nhân tạo ngày càng được tích hợp vào các hệ thống quan trọng, việc hiểu rõ các lỗ hổng này là điều cần thiết để đảm bảo việc triển khai mô hình luôn an toàn và đáng tin cậy.

Cơ chế và Kỹ thuật

Nguyên tắc cốt lõi của một cuộc tấn công đối kháng là xác định "điểm mù" trong ranh giới quyết định của mô hình. Trong học sâu , các mô hình học cách classify Dữ liệu bằng cách tối ưu hóa trọng số mô hình để giảm thiểu lỗi. Kẻ tấn công khai thác điều này bằng cách tính toán chính xác những thay đổi cần thiết để đẩy dữ liệu đầu vào vượt qua ngưỡng phân loại. Ví dụ, Phương pháp Dấu Gradient Nhanh (FGSM) , được giới thiệu bởi các nhà nghiên cứu, bao gồm Ian Goodfellow, điều chỉnh các giá trị pixel đầu vào theo hướng tối đa hóa hàm mất mát, nhanh chóng tạo ra một ví dụ đối kháng.

Các cuộc tấn công thường được phân loại theo mức độ thông tin mà kẻ tấn công có được:

Tấn công hộp trắng: Kẻ tấn công có toàn quyền truy cập vào kiến trúc và các tham số của mô hình. Điều này cho phép thực hiện các tính toán chính xác để đánh lừa các lớp cụ thể, thường thử nghiệm giới hạn sai lệch của thuật toán .
Tấn công hộp đen: Kẻ tấn công không có kiến thức nội bộ và chỉ tương tác với mô hình thông qua đầu vào và đầu ra, tương tự như một công cụ suy luận tiêu chuẩn. Các cuộc tấn công này thường dựa vào khả năng chuyển giao, trong đó một ví dụ đánh lừa được một mô hình có thể đánh lừa được mô hình khác.

Ứng dụng và rủi ro trong thế giới thực

Hậu quả của các cuộc tấn công đối nghịch không chỉ giới hạn ở nghiên cứu học thuật mà còn gây ra rủi ro thực sự cho cơ sở hạ tầng quan trọng về an toàn.

Lái xe tự động: Trong lĩnh vực AI trong ô tô , các hệ thống nhận thức thị giác dựa vào khả năng phát hiện vật thể để nhận dạng biển báo giao thông. Các nhà nghiên cứu đã chứng minh rằng việc dán nhãn cụ thể lên biển báo dừng có thể khiến xe tự hành phân loại nhầm đó là biển báo giới hạn tốc độ. Loại tấn công đối kháng vật lý này nhấn mạnh nhu cầu về độ bền cực cao của các hệ thống thị giác máy tính được sử dụng trên đường công cộng.
Bảo mật sinh trắc học: Nhiều cơ sở và thiết bị an ninh sử dụng nhận dạng khuôn mặt để kiểm soát truy cập. Kính chống giả hoặc hoa văn in có thể được thiết kế để phá vỡ quy trình trích xuất đặc điểm , cho phép người dùng trái phép vượt qua bảo mật hoặc mạo danh một cá nhân cụ thể.

Phòng thủ và Sức mạnh

Phòng thủ trước những mối đe dọa này là một thành phần quan trọng của an toàn AI . Các nền tảng như MITRE ATLAS cung cấp cơ sở kiến thức về các chiến thuật của đối thủ để giúp các nhà phát triển củng cố hệ thống của họ. Một chiến lược phòng thủ chính là Huấn luyện Đối kháng , trong đó các ví dụ đối kháng được tạo ra và thêm vào dữ liệu huấn luyện . Điều này buộc mô hình phải học cách bỏ qua các nhiễu động nhỏ.

Một phương pháp hiệu quả khác là tăng cường dữ liệu . Bằng cách đưa vào nhiễu, cắt xén riêng biệt hoặc hiệu ứng khảm trong quá trình huấn luyện, mô hình sẽ tổng quát hóa tốt hơn và ít bị sai lệch hơn. Khung Quản lý Rủi ro AI của NIST nhấn mạnh các quy trình kiểm tra và xác thực này để giảm thiểu rủi ro bảo mật.

Phân biệt với các khái niệm liên quan

Điều quan trọng là phải phân biệt các cuộc tấn công đối nghịch với các thuật ngữ tương tự trong bối cảnh an ninh:

Tấn công đối nghịch so với đầu độc dữ liệu: Trong khi các cuộc tấn công đối nghịch thao túng dữ liệu đầu vào tại thời điểm suy luận để đánh lừa mô hình đã được đào tạo, đầu độc dữ liệu liên quan đến việc làm hỏng tập dữ liệu trước khi bắt đầu đào tạo, làm tổn hại đến tính toàn vẹn cơ bản của mô hình.
Tấn công đối kháng so với Tấn công chèn nhanh: Tấn công đối kháng thường nhắm vào dữ liệu số hoặc hình ảnh trong các mô hình phân biệt. Ngược lại, tấn công chèn nhanh chỉ dành riêng cho Mô hình Ngôn ngữ Lớn (LLM) , trong đó các lệnh văn bản độc hại ghi đè lên chương trình lập trình của AI.

Tăng cường tính mạnh mẽ của mô hình

Sau đây là Python Đoạn trích minh họa cách áp dụng tăng cường mạnh trong quá trình huấn luyện với Ultralytics YOLO11 . Mặc dù điều này không tạo ra các cuộc tấn công, nhưng việc sử dụng các kỹ thuật như MixUp và Mosaic cải thiện đáng kể tính mạnh mẽ của mô hình trước các biến thể đầu vào và nhiễu đối nghịch tiềm ẩn.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Tấn công đối nghịch (Adversarial Attacks)

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Cơ chế và Kỹ thuật

Ứng dụng và rủi ro trong thế giới thực

Phòng thủ và Sức mạnh

Phân biệt với các khái niệm liên quan

Tăng cường tính mạnh mẽ của mô hình

Đọc thêm trong danh mục này

Xu hướng phát hiện vật thể trong tương lai: 7 điều quan trọng cần chú ý

Nâng cao khả năng nhận dạng lại xe với Ultralytics YOLO các mô hình

Cải thiện dự đoán va chạm với Ultralytics YOLO các mô hình

Tham gia Ultralytics cộng đồng