YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Tấn công giả lập AI

Khám phá cách AI Red Teaming bảo vệ các hệ thống AI khỏi các lỗ hổng và sự thiên vị. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng để kiểm tra độ bền của các mô hình thị giác nhằm đạt độ tin cậy cao nhất.

AI Red Teaming là một phương pháp bảo mật có cấu trúc, chủ động, trong đó các nhóm chuyên trách mô phỏng các cuộc tấn công của đối thủ nhằm vào các hệ thống Trí tuệ Nhân tạo (AI) để phát hiện ra các lỗ hổng, sai lệch và rủi ro an toàn tiềm ẩn trước khi chúng được đưa vào sản xuất. Ban đầu được kế thừa từ an ninh mạng truyền thống, AI red teaming đã phát triển để giải quyết các hành vi xác suất độc đáo và bề mặt tấn công khổng lồ của các mô hình Học máy (ML) hiện đại, chẳng hạn như Mô hình Ngôn ngữ Lớn (LLM) và các mạng Thị giác Máy tính (CV) phức tạp. Bằng cách kiểm tra kỹ lưỡng các mô hình trong các trường hợp ngoại lệ, các tổ chức có thể đảm bảo hệ thống của họ hoạt động đáng tin cậy trong điều kiện thực tế và tránh các sự cố nghiêm trọng.

Kiểm thử đỏ AI so với các cuộc tấn công đối kháng và an toàn AI

Mặc dù thường được thảo luận cùng nhau, AI Red Teaming là một quy trình riêng biệt trong bối cảnh rộng lớn hơn của An toàn AI . An toàn AI là mục tiêu bao quát nhằm xây dựng các hệ thống đáng tin cậy, có đạo đức và đồng bộ. Các cuộc tấn công đối kháng là các kỹ thuật cụ thể—như tiêm mã độc hoặc thao tác pixel—được sử dụng để đánh lừa các mô hình. AI Red Teaming là phương pháp luận được chính thức hóa và bài tập vận hành sử dụng chủ động các cuộc tấn công đối kháng đó và giải quyết vấn đề một cách sáng tạo để kiểm tra khả năng phòng thủ của mô hình. Nó đóng vai trò là một bước quan trọng trước khi triển khai mô hình và tiếp tục thông qua việc giám sát mô hình liên tục để phát hiện các mối đe dọa mới nổi.

Tầm quan trọng và các khuôn khổ

Kiểm thử học sâu (Deep Learning - DL) tiêu chuẩn thường dựa trên các tập dữ liệu đã biết với các chỉ số đạt/không đạt nhị phân, điều này không thể nắm bắt được bản chất năng động của AI. Kiểm thử phản biện (Red Teaming) tập trung vào việc phát hiện các chế độ lỗi mới và giảm thiểu sai lệch trong AI . Các nhà lãnh đạo ngành tuân thủ các hướng dẫn đã được thiết lập như Khung quản lý rủi ro AI của NIST (AI RMF) , trong đó yêu cầu kiểm thử đối kháng để đánh giá các hệ thống trong điều kiện chịu tải. Các nguồn tài nguyên quan trọng khác bao gồm ma trận MITRE ATLAS để mô hình hóa các mối đe dọa cụ thể đối với AI, và Hướng dẫn kiểm thử phản biện OWASP GenAI để bảo mật các mô hình tạo sinh. Các nhà nghiên cứu tại các tổ chức như Trung tâm An ninh và Công nghệ mới nổi (CSET) liên tục công bố các thực tiễn tốt nhất được cập nhật, trong khi các phòng thí nghiệm nhấn mạnh việc kiểm thử trong các chính sách như Chính sách mở rộng có trách nhiệm của Anthropiccác sáng kiến ​​An toàn của OpenAI .

Các Ứng dụng Thực tế

Kiểm thử phản biện AI (AI Red Teaming) rất quan trọng trong các môi trường có rủi ro cao, nơi mà sai sót có thể gây ra thiệt hại đáng kể.

  • Xe tự hành: Trong công nghệ xe tự lái, các nhóm kiểm thử (red team) mô phỏng các mối nguy hiểm hiếm gặp trong môi trường – chẳng hạn như biển báo đường phố bị thay đổi một cách ác ý, các điều kiện thời tiết khắc nghiệt hoặc hành vi bất ngờ của người đi bộ – để kiểm tra độ bền vững của hệ thống phát hiện vật thể . Điều này đảm bảo xe có thể di chuyển an toàn trong các điều kiện nằm ngoài dữ liệu huấn luyện tiêu chuẩn.
  • Chẩn đoán Y tế: Trước khi triển khai mô hình hình ảnh y tế, nhóm tấn công (red team) có thể cố ý đưa nhiễu, hiện tượng giả hoặc các nhiễu loạn mô phỏng vào ảnh chụp X-quang hoặc MRI. Việc kiểm tra đối kháng này đảm bảo công cụ chẩn đoán không tạo ra ảo giác về khối u hoặc bỏ sót các bất thường quan trọng khi đối mặt với các bản quét chất lượng thấp từ thiết bị bệnh viện cũ.

Kiểm tra độ bền của trí tuệ nhân tạo thị giác

Trong các ứng dụng thị giác máy tính, việc tấn công mô phỏng (red teaming) thường bao gồm việc áp dụng các biến dạng lập trình để kiểm tra xem mô hình có duy trì khả năng nhận thức chính xác hay không. Để tối ưu hóa quy trình này và quản lý hiệu quả các tập dữ liệu trường hợp ngoại lệ, các nhóm thường sử dụng Nền tảng Ultralytics .

Sau đây Python Ví dụ này minh họa một mô phỏng tấn công cơ bản, trong đó hình ảnh được làm tối đi đáng kể để kiểm tra khả năng chống chịu của Ultralytics YOLO26 , tiêu chuẩn mới nhất cho trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối.

import cv2
from ultralytics import YOLO

# Load the Ultralytics YOLO26 model for vision AI red teaming
model = YOLO("yolo26n.pt")

# Simulate an adversarial/edge-case condition by severely altering image lighting
image = cv2.imread("image.jpg")
darkened_image = cv2.convertScaleAbs(image, alpha=0.3, beta=0)

# Evaluate if the model's predictions fail or remain robust under stress
results = model(darkened_image)
print(f"Model detected {len(results[0].boxes)} objects in the stressed condition.")

Việc tích hợp các bài tập tấn công giả lập có cấu trúc, được hỗ trợ bởi các công cụ chuyên dụng như Microsoft PyRIT và những hiểu biết từ các nhà lãnh đạo an ninh như Vectra AIGroup-IB , đảm bảo rằng các tổ chức triển khai các hệ thống AI không chỉ có độ chính xác cao mà còn về cơ bản là an toàn và có khả năng chống chịu trước các mối đe dọa thực tế tinh vi.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy