YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

적대적 공격

AI 시스템에 대한 적대적 공격의 영향, 유형, 실제 사례 및 AI 보안을 강화하기 위한 방어 전략을 알아보세요.

적대적 공격은 악의적이고 의도적으로 설계된 입력을 제공하여 머신러닝 모델을 속이는 데 사용되는 기술입니다. 이러한 입력은 적대적 예제로 알려져 있으며, 합법적인 데이터를 미묘하게 수정하여 생성됩니다. 이러한 변경은 종종 인간의 눈에는 감지할 수 없을 정도로 작지만, 신경망이 높은 확신을 가지고 잘못된 예측을 하도록 유도할 수 있습니다. 이러한 취약점은 AI 시스템, 특히 신뢰성과 정확성이 중요한 핵심 컴퓨터 비전 애플리케이션에서 심각한 보안 문제로 간주됩니다.

적대적 공격의 작동 방식

적대적 공격은 딥러닝 모델이 학습하고 의사 결정을 내리는 방식을 악용합니다. 모델은 다양한 데이터 범주를 구분하는 "결정 경계"를 식별하여 패턴을 인식하는 방법을 학습합니다. 공격자의 목표는 입력을 변경하여 이 경계를 넘도록 하는 가장 효율적인 방법을 찾아 오분류를 유발하는 것입니다. 추가된 교란은 임의의 노이즈가 아니라 모델의 특정 약점을 악용하도록 설계된 신중하게 계산된 신호입니다. Carnegie Mellon University와 같은 기관의 연구는 이러한 메커니즘에 대한 심층적인 통찰력을 제공합니다.

적대적 공격 유형

공격은 일반적으로 공격자가 대상 모델에 대해 알고 있는 지식에 따라 분류됩니다.

  • 화이트 박스 공격: 공격자는 모델의 아키텍처, 매개변수 및 학습 데이터에 대한 완전한 지식을 가지고 있습니다. 이러한 완전한 액세스를 통해 모델의 견고성을 테스트하는 데 강력한 FGSM(Fast Gradient Sign Method)과 같이 매우 효과적인 공격을 생성할 수 있습니다.
  • 블랙박스 공격: 공격자는 모델에 대한 내부 지식이 없으며 입력값을 제공하고 출력값을 관찰하여 모델을 쿼리할 수만 있습니다. 이러한 공격은 실제 시나리오에서 더 현실적입니다. 이들은 종종 전이성 원리에 의존하는데, 하나의 모델을 속이기 위해 생성된 적대적 예제가 다른 모델도 속일 가능성이 높다는 원리이며, 이는 Google AI의 연구자들이 탐구한 현상입니다.

실제 사례

  1. 이미지 인식의 오분류: 잘 알려진 예로는 판다 사진을 올바르게 식별하는 이미지 분류 모델이 있습니다. 눈에 띄지 않는 적대적 노이즈 레이어를 추가한 후 동일한 모델이 이미지를 높은 확실성으로 긴팔원숭이로 잘못 분류합니다.
  2. 자율 시스템 속이기(Deceiving Autonomous Systems): 연구원들은 정지 표지판에 간단한 스티커를 붙이는 것만으로도 자율 주행 차량객체 감지 모델을 속일 수 있음을 성공적으로 입증했습니다. 모델이 표지판을 "제한 속도 45" 표지판으로 잘못 식별할 수 있으며, 이는 모든 자동차 AI 시스템에서 심각한 오류입니다. 이를 물리적 적대적 공격이라고 합니다.

적대적 공격에 대한 방어

이러한 위협으로부터 모델을 보호하는 것은 활발한 연구 분야입니다. 일반적인 방어 전략은 다음과 같습니다.

  • 적대적 훈련(Adversarial Training): 이것은 현재 가장 효과적인 방어 방법 중 하나입니다. 여기에는 적대적 예제를 생성하고 모델의 훈련 세트에 포함하는 것이 포함됩니다. 데이터 증강의 한 형태인 이 프로세스는 모델이 적대적 섭동을 무시하고 보다 강력한 표현을 구축하는 데 도움이 됩니다.
  • 입력 전처리: 모델에 입력 이미지를 제공하기 전에 흐림 효과, 노이즈 감소 또는 JPEG 압축과 같은 변환을 적용하면 때때로 적대적 노이즈를 제거하거나 줄일 수 있습니다.
  • 모델 앙상블: 여러 다른 모델의 예측을 결합하면 공격자가 모든 모델을 동시에 속이는 단일 적대적 예제를 만드는 것이 더 어려워질 수 있습니다.

적대적 머신러닝의 미래

적대적 ML 분야는 종종 새로운 공격과 방어가 끊임없이 등장하는 지속적인 '군비 경쟁'으로 묘사됩니다. 신뢰할 수 있는 AI를 구축하려면 강력한 개발 및 테스트 사례가 필요합니다. 적대적 위협 정보 방어를 위한 MITRE ATLAS와 같은 프레임워크는 조직이 이러한 위협을 이해하고 대비하는 데 도움이 됩니다. NIST와 같은 조직과 Microsoft와 같은 회사는 방어 기술을 적극적으로 연구하고 있습니다. 설명 가능한 AI(XAI)의 원칙을 통합하면 취약점을 식별하는 데 도움이 되며, 강력한 AI 윤리를 준수하면 책임감 있는 모델 배포가 가능합니다. 지속적인 연구와 경계는 Ultralytics YOLO11과 같은 모델을 실제 응용 분야에서 안전하고 안정적으로 배포할 수 있도록 보장합니다. 안전한 모델 개발에 대해 자세히 알아보려면 튜토리얼을 살펴보고 간소화되고 안전한 워크플로를 위해 Ultralytics HUB와 같은 플랫폼을 사용하는 것을 고려해 보십시오.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.