Khám phá tác động của các cuộc tấn công đối nghịch vào hệ thống AI, các loại tấn công, ví dụ thực tế và các chiến lược phòng thủ để tăng cường bảo mật AI.
Các cuộc tấn công đối kháng là một loại kỹ thuật thao túng tinh vi được thiết kế để đánh lừa các mô hình học máy (ML) đưa ra các dự đoán sai với độ tin cậy cao. Các cuộc tấn công này hoạt động bằng cách đưa vào những nhiễu loạn tinh tế, thường không thể nhận biết được, đối với dữ liệu đầu vào—chẳng hạn như hình ảnh, âm thanh hoặc văn bản. Mặc dù những thay đổi này trông có vẻ vô hại hoặc ngẫu nhiên đối với người quan sát, nhưng chúng lại khai thác các lỗ hổng toán học cụ thể trong ranh giới quyết định của các mạng nơ-ron đa chiều. Khi các hệ thống Trí tuệ Nhân tạo (AI) trở thành một phần không thể thiếu của cơ sở hạ tầng quan trọng về an toàn, việc hiểu cách thức hoạt động của các lỗ hổng này là điều cần thiết để phát triển các giao thức an toàn AI mạnh mẽ và các cơ chế phòng thủ.
Trong quy trình huấn luyện học sâu (DL) điển hình, mô hình tối ưu hóa trọng số của nó để giảm thiểu lỗi trên tập dữ liệu huấn luyện. Tuy nhiên, về cơ bản, các mô hình này tạo ra các bản đồ phức tạp trong không gian đa chiều. Một cuộc tấn công đối nghịch tính toán chính xác "hướng" trong không gian này cần thiết để đẩy đầu vào vượt qua một ranh giới, đảo ngược phân loại của mô hình. Ví dụ, trong thị giác máy tính (CV) , việc thay đổi giá trị pixel của hình ảnh gấu trúc bằng một lượng "nhiễu" được tính toán có thể khiến hệ thống tự tin phân loại sai nó thành một con vượn, mặc dù hình ảnh vẫn trông giống hệt như một con gấu trúc đối với mắt người.
Các chiến lược tấn công thường được phân loại dựa trên mức độ truy cập mà kẻ tấn công có được vào hệ thống mục tiêu:
Mặc dù thường được thảo luận trong các nghiên cứu lý thuyết, các cuộc tấn công đối kháng tiềm ẩn những rủi ro hữu hình đối với các triển khai thực tế, đặc biệt là trong các hệ thống tự động và an ninh.
Để hiểu được mức độ dễ bị tổn thương của một số mô hình, việc xem xét mức độ dễ dàng mà một hình ảnh có thể bị nhiễu loạn là rất hữu ích. Mặc dù suy luận tiêu chuẩn với các mô hình như YOLO26 khá mạnh mẽ cho mục đích sử dụng chung, các nhà nghiên cứu thường mô phỏng các cuộc tấn công để cải thiện việc giám sát và phòng thủ mô hình . Ví dụ minh họa sau đây sử dụng PyTorch Để minh họa cách sử dụng độ dốc để tính toán nhiễu loạn (mạo hiểm) cho một hình ảnh.
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbation
Điều quan trọng là phải phân biệt các cuộc tấn công đối kháng với các hình thức lỗi hoặc thao túng mô hình khác:
Phát triển các biện pháp phòng thủ chống lại các cuộc tấn công này là một thành phần cốt lõi của MLOps hiện đại. Các kỹ thuật như huấn luyện đối kháng—trong đó các ví dụ bị tấn công được thêm vào tập huấn luyện—giúp các mô hình trở nên bền vững hơn. Các nền tảng như Ultralytics Platform tạo điều kiện thuận lợi cho các quy trình huấn luyện và xác thực nghiêm ngặt, cho phép các nhóm đánh giá độ mạnh mẽ của mô hình trước khi triển khai lên các thiết bị biên.