Yolo 비전 선전
선전
지금 참여하기
용어집

적대적 공격

AI 시스템에 대한 적대적 공격의 영향, 유형, 실제 사례 및 AI 보안을 강화하기 위한 방어 전략을 알아보세요.

적대적 공격은 머신 러닝 모델을 속이기 위해 사용되는 정교한 기법으로 머신 러닝 모델을 속이는 데 사용되는 입력 데이터에 의도적으로 설계된 교란을 도입하여 머신 러닝 모델을 속이는 정교한 기법입니다. 이러한 수정은 종종 사람의 눈으로는 감지할 수 없습니다, 신경망 내의 수학적 연산을 조작하여 신경망 내의 수학적 연산을 조작하여 신뢰도는 높지만 부정확한 예측을 하게 됩니다. 인공지능이 인공 지능이 중요 시스템에 점점 더 많이 통합됨에 따라 이러한 취약점을 이해하는 것은 모델 배포를 안전하고 안정적으로 유지하는 데 필수적입니다.

메커니즘 및 기술

적대적 공격의 핵심 원칙은 모델의 의사 결정 경계에서 '사각지대'를 식별하는 것입니다. 딥 러닝에서 모델은 다음과 같은 방법으로 데이터를 classify 방법을 학습합니다. 모델 가중치를 최적화하여 오류를 최소화합니다. 공격자 는 입력을 분류 임계값을 넘어서는 데 필요한 정확한 변경 사항을 계산하여 이를 악용합니다. 예를 들어 예를 들어, 빠른 그라디언트 부호 방법(FGSM)은 연구진이 도입한 고속 경사 부호 방법(FGSM)은 손실 함수를 최대화하는 방향으로 입력 픽셀 값을 조정합니다, 적대적인 예시를 빠르게 생성합니다.

공격은 일반적으로 공격자가 이용할 수 있는 정보 수준에 따라 분류됩니다:

  • 화이트박스 공격: 공격자는 모델의 아키텍처와 매개 변수에 대한 모든 액세스 권한을 가집니다. 이 특정 계층을 속이기 위한 정밀한 계산이 가능하며, 종종 알고리즘 편향의 알고리즘 편향성.
  • 블랙박스 공격: 공격자는 내부 지식이 없으며 표준 모델과 유사하게 입력 및 출력을 통해서만 모델과 상호 작용합니다. 추론 엔진과 유사합니다. 이러한 공격은 종종 다음 사항에 의존합니다. 전이성, 즉 한 모델을 속이는 예가 다른 모델도 속일 가능성이 있는 경우입니다.

실제 애플리케이션 및 위험

적대적 공격의 영향은 학술 연구를 넘어 안전에 중요한 인프라에 실질적인 위험을 초래하는 인프라에 실질적인 위험을 초래합니다.

  1. 자율 주행: 다음 분야에서 자동차, 시각 인식 시스템의 AI물체 감지에 의존하여 교통 표지판을 식별합니다. 연구자들은 정지 표지판에 특정 스티커를 붙이면 자율주행 차량이 자율 주행 차량이 이를 속도 제한 표지판으로 속도 제한 표지판. 이러한 유형의 물리적 적대적 공격은 공공 도로에서 사용되는 컴퓨터 비전 시스템의 컴퓨터 비전 시스템의 극도의 견고성이 필요함을 강조합니다.
  2. 생체 인식 보안: 많은 보안 시설과 기기에서 얼굴 인식을 사용합니다. 적대적인 안경이나 인쇄된 패턴은 특징 추출 프로세스를 방해하도록 설계되어 특징 추출 프로세스를 방해하여 권한이 없는 사용자가 보안을 우회하거나 특정 개인을 사칭할 수 있습니다.

방어 및 견고성

이러한 위협을 방어하는 것은 다음과 같은 핵심 요소입니다. AI 안전의 핵심 요소입니다. 다음과 같은 프레임워크는 MITRE ATLAS는 개발자가 시스템을 강화하는 데 도움이 되는 시스템을 강화하는 데 도움이 됩니다. 주요 방어 전략은 적대적 훈련으로, 적대적 예시를 생성하여 훈련에 추가합니다. 을 생성하여 훈련 데이터에 추가하는 것입니다. 이 모델이 작은 교란을 무시하는 방법을 학습하도록 합니다.

또 다른 효과적인 방법은 데이터 증강입니다. 훈련 중에 노이즈, 뚜렷한 자르기 또는 모자이크 효과를 훈련 중에 노이즈, 뚜렷한 자르기 또는 모자이크 효과를 도입하면 모델이 더 잘 일반화되고 덜 취약해집니다. 그리고 NIST AI 위험 관리 프레임워크는 보안 위험을 완화하기 위해 이러한 보안 위험을 완화하기 위한 테스트 및 검증 절차를 강조합니다.

관련 개념과의 차이점

보안 환경에서는 적대적 공격을 유사한 용어와 구별하는 것이 중요합니다:

  • 적대적 공격 대 데이터 중독: 적대적 공격은 추론할 때 입력을 조작하지만 훈련된 모델을 속일 수 있습니다, 데이터 중독에는 학습이 시작되기 전에 데이터 세트를 손상시켜 모델의 기본 무결성을 손상시킵니다.
  • 적대적 공격 대 프롬프트 인젝션: 적대적 공격은 일반적으로 차별 모델의 숫자 또는 시각적 데이터를 표적으로 삼습니다. 이와는 대조적으로 프롬프트 인 젝션은 대규모 언어 모델(LLM), 여기서 악의적인 텍스트 명령어가 AI의 프로그래밍을 재정의합니다.

모델 견고성 강화

다음 Python 스니펫은 훈련 중에 다음을 사용하여 무거운 증강을 적용하는 방법을 보여줍니다. Ultralytics YOLO11. 이 방법은 공격을 생성하지는 않지만 MixUp 및 모자이크와 같은 기술을 활용하면 입력 변화와 잠재적인 적의 노이즈에 대한 잠재적인 적대적 노이즈에 대한 모델의 견고성을 크게 향상시킵니다.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기