Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çekişmeli Saldırılar

Yapay zeka sistemleri üzerindeki adversarial saldırıların etkisini, türlerini, gerçek dünya örneklerini ve yapay zeka güvenliğini artırmaya yönelik savunma stratejilerini keşfedin.

Düşmanca saldırılar, makine öğrenimi (ML) modellerini yanlış tahminler yapmaya yönlendirmek için tasarlanmış sofistike bir manipülasyon tekniği kategorisidir. Bu saldırılar, görüntüler, sesler veya metinler gibi giriş verilerine ince, genellikle algılanamayan Bu değişiklikler insan gözüyle bakıldığında zararsız veya rastgele görünse de , yüksek boyutlu sinir ağlarının karar sınırlarındaki belirli matematiksel zayıflıkları istismar ederler. Yapay Zeka (AI) sistemleri güvenlik açısından kritik altyapının ayrılmaz bir parçası haline geldikçe, bu zayıflıkların nasıl işlediğini anlamak, sağlam AI güvenlik protokolleri ve savunma mekanizmaları geliştirmek için çok önemlidir.

Çekişmeli Saldırılar Nasıl Çalışır

Tipik bir derin öğrenme (DL) eğitim sürecinde, model, eğitim veri setindeki hatayı en aza indirmek için ağırlıklarını optimize eder. Ancak, bu modeller esasen çok boyutlu bir uzayda karmaşık haritalar oluşturur. Bir düşmanca saldırı, bu uzayda bir girdiyi sınırın ötesine itmek için gereken kesin "yönü" hesaplar ve model sınıflandırmasını tersine çevirir. Örneğin, bilgisayar görme (CV) alanında, bir panda görüntüsünün piksel değerlerini hesaplanan miktarda "gürültü" ile değiştirmek, görüntü insan gözüne hala tam olarak panda gibi görünse bile, sistemin onu gibbon olarak yanlış sınıflandırmasına neden olabilir.

Saldırı stratejileri genellikle saldırganın hedef sisteme erişim düzeyine göre sınıflandırılır:

  • Beyaz Kutu Saldırıları: Saldırgan modelin mimarisi, gradyanları ve model ağırlıkları hakkında tam şeffaflığa sahiptir. Bu, genellikle Hızlı Gradyan İşaret Yöntemi (FGSM) gibi teknikleri kullanarak matematiksel olarak en etkili pertürbasyonu hesaplamalarına olanak tanır.
  • Kara Kutu Saldırıları: Saldırgan, iç model parametreleri hakkında hiçbir bilgiye sahip değildir ve yalnızca girdileri ve çıktıları gözlemleyebilir. Saldırganlar genellikle, hedef sisteme etkili bir şekilde aktarılan düşmanca örnekler oluşturmak için "ikame model" kullanır. Bu özellik, aktarılabilirlik olarak bilinir.

Gerçek Dünya Uygulamaları ve Riskler

Teorik araştırmalarda sıklıkla tartışılsa da, düşmanca saldırılar gerçek dünyadaki uygulamalar için, özellikle otonom sistemler ve güvenlik açısından somut riskler oluşturmaktadır.

  • Otonom Araçlar: Otonom araçlar, trafik işaretlerini yorumlamak için büyük ölçüde nesne algılama sistemlerine güvenmektedir. Araştırmalar, dur işaretine özenle hazırlanmış çıkartmalar veya bantlar yapıştırarak aracın görme sistemini aldatarak onu hız sınırı işareti olarak algılamasını sağlayabileceğini göstermiştir. Bu tür fiziksel dünya saldırıları, otomotiv uygulamalarında yapay zeka sistem lerinde tehlikeli arızalara yol açabilir.
  • Yüz Tanıma Kaçakları: Biyometrik verilere dayalı erişimi kontrol eden güvenlik sistemleri, düşmanca "yamalar" tarafından tehlikeye atılabilir. Bunlar, gözlük veya giysiler üzerinde giyilen ve özellik çıkarma sürecini bozan basılı desenler olabilir. Bu, yetkisiz bir kişinin algılamayı tamamen atlatmasına veya belirli bir kullanıcıyı taklit etmesine ve güvenlik alarm sistemlerini atlatmasına olanak tanır.

Python'da Karşıt Örnekler Oluşturma

Bazı modellerin ne kadar kırılgan olabileceğini anlamak için, bir görüntünün ne kadar kolay bozulabileceğini görmek faydalıdır. YOLO26 gibi modellerle yapılan standart çıkarımlar genel kullanım için sağlam olsa da, araştırmacılar genellikle model izleme ve savunmayı iyileştirmek için saldırıları simüle ederler. Aşağıdaki kavramsal örnek PyTorch kullanarak gradyanların bir görüntü için düşmanca bir bozulma (gürültü) hesaplamak PyTorch nasıl kullanıldığını PyTorch .

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

İlgili Kavramlar

Düşmanca saldırıları diğer model hatası veya manipülasyon biçimlerinden ayırmak önemlidir:

  • Veri Zehirlenmesi: Çıkarım sırasında (test zamanında) girdiyi manipüle eden düşmanca saldırılardan farklı olarak, veri zehirlenmesi model oluşturulmadan önce eğitim verilerinin kendisinin bozulmasını, gizli arka kapılar veya önyargıların yerleştirilmesini içerir.
  • Hızlı Enjeksiyon: Bu, Büyük Dil Modelleri (LLM'ler) ve metin arayüzlerine özgüdür. Kavramsal olarak benzer olsa da (modeli aldatmak), piksel veya sinyal verilerinin matematiksel pertürbasyonundan ziyade anlamsal dil manipülasyonuna dayanır. .
  • Aşırı uyum: Bu, bir modelin temel kalıplar yerine eğitim verilerindeki gürültüyü öğrendiği bir eğitim hatasıdır. Aşırı uyumlu modeller, karar sınırları aşırı karmaşık ve kırılgan olduğu için genellikle düşmanca saldırılara daha duyarlıdır.

Bu saldırılara karşı savunma geliştirmek, modern MLOps'un temel bileşenlerinden biridir. Saldırıya uğrayan örneklerin eğitim setine eklendiği adversarial training gibi teknikler, modellerin daha dayanıklı hale gelmesine yardımcı olur. Ultralytics gibi platformlar, titiz eğitim ve doğrulama süreçlerini kolaylaştırarak ekiplerin, uç cihazlara dağıtmadan önce model sağlamlığını değerlendirmelerine olanak tanır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın