AI 시스템에 대한 적대적 공격의 영향, 유형, 실제 사례 및 AI 보안을 강화하기 위한 방어 전략을 알아보세요.
적대적 공격은 머신 러닝 모델을 속이기 위해 사용되는 정교한 기법으로 머신 러닝 모델을 속이는 데 사용되는 입력 데이터에 의도적으로 설계된 교란을 도입하여 머신 러닝 모델을 속이는 정교한 기법입니다. 이러한 수정은 종종 사람의 눈으로는 감지할 수 없습니다, 신경망 내의 수학적 연산을 조작하여 신경망 내의 수학적 연산을 조작하여 신뢰도는 높지만 부정확한 예측을 하게 됩니다. 인공지능이 인공 지능이 중요 시스템에 점점 더 많이 통합됨에 따라 이러한 취약점을 이해하는 것은 모델 배포를 안전하고 안정적으로 유지하는 데 필수적입니다.
적대적 공격의 핵심 원칙은 모델의 의사 결정 경계에서 '사각지대'를 식별하는 것입니다. 딥 러닝에서 모델은 다음과 같은 방법으로 데이터를 classify 방법을 학습합니다. 모델 가중치를 최적화하여 오류를 최소화합니다. 공격자 는 입력을 분류 임계값을 넘어서는 데 필요한 정확한 변경 사항을 계산하여 이를 악용합니다. 예를 들어 예를 들어, 빠른 그라디언트 부호 방법(FGSM)은 연구진이 도입한 고속 경사 부호 방법(FGSM)은 손실 함수를 최대화하는 방향으로 입력 픽셀 값을 조정합니다, 적대적인 예시를 빠르게 생성합니다.
공격은 일반적으로 공격자가 이용할 수 있는 정보 수준에 따라 분류됩니다:
적대적 공격의 영향은 학술 연구를 넘어 안전에 중요한 인프라에 실질적인 위험을 초래하는 인프라에 실질적인 위험을 초래합니다.
이러한 위협을 방어하는 것은 다음과 같은 핵심 요소입니다. AI 안전의 핵심 요소입니다. 다음과 같은 프레임워크는 MITRE ATLAS는 개발자가 시스템을 강화하는 데 도움이 되는 시스템을 강화하는 데 도움이 됩니다. 주요 방어 전략은 적대적 훈련으로, 적대적 예시를 생성하여 훈련에 추가합니다. 을 생성하여 훈련 데이터에 추가하는 것입니다. 이 모델이 작은 교란을 무시하는 방법을 학습하도록 합니다.
또 다른 효과적인 방법은 데이터 증강입니다. 훈련 중에 노이즈, 뚜렷한 자르기 또는 모자이크 효과를 훈련 중에 노이즈, 뚜렷한 자르기 또는 모자이크 효과를 도입하면 모델이 더 잘 일반화되고 덜 취약해집니다. 그리고 NIST AI 위험 관리 프레임워크는 보안 위험을 완화하기 위해 이러한 보안 위험을 완화하기 위한 테스트 및 검증 절차를 강조합니다.
보안 환경에서는 적대적 공격을 유사한 용어와 구별하는 것이 중요합니다:
다음 Python 스니펫은 훈련 중에 다음을 사용하여 무거운 증강을 적용하는 방법을 보여줍니다. Ultralytics YOLO11. 이 방법은 공격을 생성하지는 않지만 MixUp 및 모자이크와 같은 기술을 활용하면 입력 변화와 잠재적인 적의 노이즈에 대한 잠재적인 적대적 노이즈에 대한 모델의 견고성을 크게 향상시킵니다.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
data="coco8.yaml",
epochs=50,
mixup=0.2, # Blends images together
mosaic=1.0, # Combines 4 images into 1
fliplr=0.5, # Randomly flips images horizontally
)

