Yapay zeka sistemleri üzerindeki adversarial saldırıların etkisini, türlerini, gerçek dünya örneklerini ve yapay zeka güvenliğini artırmaya yönelik savunma stratejilerini keşfedin.
Düşmanca saldırılar, makine öğrenimi (ML) modellerini yanlış tahminler yapmaya yönlendirmek için tasarlanmış sofistike bir manipülasyon tekniği kategorisidir. Bu saldırılar, görüntüler, sesler veya metinler gibi giriş verilerine ince, genellikle algılanamayan Bu değişiklikler insan gözüyle bakıldığında zararsız veya rastgele görünse de , yüksek boyutlu sinir ağlarının karar sınırlarındaki belirli matematiksel zayıflıkları istismar ederler. Yapay Zeka (AI) sistemleri güvenlik açısından kritik altyapının ayrılmaz bir parçası haline geldikçe, bu zayıflıkların nasıl işlediğini anlamak, sağlam AI güvenlik protokolleri ve savunma mekanizmaları geliştirmek için çok önemlidir.
Tipik bir derin öğrenme (DL) eğitim sürecinde, model, eğitim veri setindeki hatayı en aza indirmek için ağırlıklarını optimize eder. Ancak, bu modeller esasen çok boyutlu bir uzayda karmaşık haritalar oluşturur. Bir düşmanca saldırı, bu uzayda bir girdiyi sınırın ötesine itmek için gereken kesin "yönü" hesaplar ve model sınıflandırmasını tersine çevirir. Örneğin, bilgisayar görme (CV) alanında, bir panda görüntüsünün piksel değerlerini hesaplanan miktarda "gürültü" ile değiştirmek, görüntü insan gözüne hala tam olarak panda gibi görünse bile, sistemin onu gibbon olarak yanlış sınıflandırmasına neden olabilir.
Saldırı stratejileri genellikle saldırganın hedef sisteme erişim düzeyine göre sınıflandırılır:
Teorik araştırmalarda sıklıkla tartışılsa da, düşmanca saldırılar gerçek dünyadaki uygulamalar için, özellikle otonom sistemler ve güvenlik açısından somut riskler oluşturmaktadır.
Bazı modellerin ne kadar kırılgan olabileceğini anlamak için, bir görüntünün ne kadar kolay bozulabileceğini görmek faydalıdır. YOLO26 gibi modellerle yapılan standart çıkarımlar genel kullanım için sağlam olsa da, araştırmacılar genellikle model izleme ve savunmayı iyileştirmek için saldırıları simüle ederler. Aşağıdaki kavramsal örnek PyTorch kullanarak gradyanların bir görüntü için düşmanca bir bozulma (gürültü) hesaplamak PyTorch nasıl kullanıldığını PyTorch .
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbation
Düşmanca saldırıları diğer model hatası veya manipülasyon biçimlerinden ayırmak önemlidir:
Bu saldırılara karşı savunma geliştirmek, modern MLOps'un temel bileşenlerinden biridir. Saldırıya uğrayan örneklerin eğitim setine eklendiği adversarial training gibi teknikler, modellerin daha dayanıklı hale gelmesine yardımcı olur. Ultralytics gibi platformlar, titiz eğitim ve doğrulama süreçlerini kolaylaştırarak ekiplerin, uç cihazlara dağıtmadan önce model sağlamlığını değerlendirmelerine olanak tanır.
