Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tấn công đối nghịch (Adversarial Attacks)

Khám phá tác động của các cuộc tấn công đối nghịch vào hệ thống AI, các loại tấn công, ví dụ thực tế và các chiến lược phòng thủ để tăng cường bảo mật AI.

Các cuộc tấn công đối kháng là một loại kỹ thuật thao túng tinh vi được thiết kế để đánh lừa các mô hình học máy (ML) đưa ra các dự đoán sai với độ tin cậy cao. Các cuộc tấn công này hoạt động bằng cách đưa vào những nhiễu loạn tinh tế, thường không thể nhận biết được, đối với dữ liệu đầu vào—chẳng hạn như hình ảnh, âm thanh hoặc văn bản. Mặc dù những thay đổi này trông có vẻ vô hại hoặc ngẫu nhiên đối với người quan sát, nhưng chúng lại khai thác các lỗ hổng toán học cụ thể trong ranh giới quyết định của các mạng nơ-ron đa chiều. Khi các hệ thống Trí tuệ Nhân tạo (AI) trở thành một phần không thể thiếu của cơ sở hạ tầng quan trọng về an toàn, việc hiểu cách thức hoạt động của các lỗ hổng này là điều cần thiết để phát triển các giao thức an toàn AI mạnh mẽ và các cơ chế phòng thủ.

Cách thức hoạt động của các cuộc tấn công đối nghịch

Trong quy trình huấn luyện học sâu (DL) điển hình, mô hình tối ưu hóa trọng số của nó để giảm thiểu lỗi trên tập dữ liệu huấn luyện. Tuy nhiên, về cơ bản, các mô hình này tạo ra các bản đồ phức tạp trong không gian đa chiều. Một cuộc tấn công đối nghịch tính toán chính xác "hướng" trong không gian này cần thiết để đẩy đầu vào vượt qua một ranh giới, đảo ngược phân loại của mô hình. Ví dụ, trong thị giác máy tính (CV) , việc thay đổi giá trị pixel của hình ảnh gấu trúc bằng một lượng "nhiễu" được tính toán có thể khiến hệ thống tự tin phân loại sai nó thành một con vượn, mặc dù hình ảnh vẫn trông giống hệt như một con gấu trúc đối với mắt người.

Các chiến lược tấn công thường được phân loại dựa trên mức độ truy cập mà kẻ tấn công có được vào hệ thống mục tiêu:

  • Tấn công hộp trắng : Kẻ tấn công có toàn quyền truy cập vào kiến ​​trúc, độ dốc và trọng số của mô hình. Điều này cho phép chúng tính toán toán học sự nhiễu loạn hiệu quả nhất, thường sử dụng các kỹ thuật như Phương pháp Dấu hiệu Độ dốc Nhanh (FGSM).
  • Tấn công hộp đen : Kẻ tấn công không biết gì về các tham số của mô hình bên trong và chỉ có thể quan sát đầu vào và đầu ra. Kẻ tấn công thường sử dụng "mô hình thay thế" để tạo ra các ví dụ đối nghịch có thể chuyển giao hiệu quả sang hệ thống mục tiêu, một thuộc tính được gọi là khả năng chuyển giao.

Ứng dụng và rủi ro trong thế giới thực

Mặc dù thường được thảo luận trong các nghiên cứu lý thuyết, các cuộc tấn công đối kháng tiềm ẩn những rủi ro hữu hình đối với các triển khai thực tế, đặc biệt là trong các hệ thống tự động và an ninh.

  • Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào việc nhận diện vật thể để hiểu các biển báo giao thông. Nghiên cứu đã chứng minh rằng việc dán các nhãn dán hoặc băng keo được thiết kế cẩn thận lên biển báo dừng có thể đánh lừa hệ thống thị giác của xe, khiến nó nhận diện biển báo đó như một biển báo giới hạn tốc độ. Kiểu tấn công vào thế giới vật lý này có thể dẫn đến những lỗi nguy hiểm trong trí tuệ nhân tạo (AI) ứng dụng trong ngành ô tô .
  • Kẻ né tránh nhận diện khuôn mặt : Các hệ thống an ninh kiểm soát quyền truy cập dựa trên sinh trắc học có thể bị xâm phạm bởi các "miếng vá" của kẻ thù. Chúng có thể là các mẫu in được đeo trên kính hoặc quần áo nhằm làm gián đoạn quá trình trích xuất đặc điểm . Điều này cho phép một cá nhân không được ủy quyền hoặc là hoàn toàn tránh bị phát hiện hoặc mạo danh một người dùng cụ thể, vượt qua các hệ thống báo động an ninh .

Tạo ra các ví dụ đối nghịch trong Python

Để hiểu được mức độ dễ bị tổn thương của một số mô hình, việc xem xét mức độ dễ dàng mà một hình ảnh có thể bị nhiễu loạn là rất hữu ích. Mặc dù suy luận tiêu chuẩn với các mô hình như YOLO26 khá mạnh mẽ cho mục đích sử dụng chung, các nhà nghiên cứu thường mô phỏng các cuộc tấn công để cải thiện việc giám sát và phòng thủ mô hình . Ví dụ minh họa sau đây sử dụng PyTorch Để minh họa cách sử dụng độ dốc để tính toán nhiễu loạn (mạo hiểm) cho một hình ảnh.

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

Các Khái Niệm Liên Quan

Điều quan trọng là phải phân biệt các cuộc tấn công đối kháng với các hình thức lỗi hoặc thao túng mô hình khác:

  • Tấn công làm sai lệch dữ liệu : Khác với các cuộc tấn công đối kháng thao túng dữ liệu đầu vào trong quá trình suy luận (thời gian kiểm thử), tấn công làm sai lệch dữ liệu liên quan đến việc làm hỏng dữ liệu huấn luyện trước khi mô hình được xây dựng, bằng cách nhúng các cửa hậu hoặc thông tin sai lệch ẩn.
  • Phương pháp chèn dữ liệu tức thời (Prompt Injection ): Phương pháp này đặc thù đối với các Mô hình Ngôn ngữ Lớn (LLM) và giao diện văn bản. Mặc dù về mặt khái niệm là tương tự - đánh lừa mô hình - nhưng nó dựa trên thao tác ngôn ngữ ngữ nghĩa hơn là sự nhiễu loạn toán học đối với dữ liệu pixel hoặc tín hiệu.
  • Hiện tượng quá khớp (Overfitting ): Đây là một lỗi trong quá trình huấn luyện, trong đó mô hình học nhiễu trong dữ liệu huấn luyện thay vì học được mô hình cơ bản. Các mô hình bị quá khớp thường dễ bị tấn công bởi các đối thủ vì ranh giới quyết định của chúng quá phức tạp và dễ bị phá vỡ.

Phát triển các biện pháp phòng thủ chống lại các cuộc tấn công này là một thành phần cốt lõi của MLOps hiện đại. Các kỹ thuật như huấn luyện đối kháng—trong đó các ví dụ bị tấn công được thêm vào tập huấn luyện—giúp các mô hình trở nên bền vững hơn. Các nền tảng như Ultralytics Platform tạo điều kiện thuận lợi cho các quy trình huấn luyện và xác thực nghiêm ngặt, cho phép các nhóm đánh giá độ mạnh mẽ của mô hình trước khi triển khai lên các thiết bị biên.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay