Hızlı enjeksiyonun LLM'leri ve çok modlu modelleri nasıl istismar ettiğini öğrenin. Bilgisayar görüşündeki riskleri, gerçek dünya örneklerini ve AI güvenliği için risk azaltma stratejilerini keşfedin.
Prompt enjeksiyonu, öncelikle Üretken Yapay Zeka ve Büyük Dil Modelleri (LLM'ler) üzerine inşa edilmiş sistemleri etkileyen bir güvenlik açığıdır. Bu güvenlik açığı, kötü niyetli bir kullanıcı, yapay zekayı orijinal programlamasını, güvenlik önlemlerini veya sistem talimatlarını geçersiz kılmaya yönlendiren, genellikle zararsız metin gibi görünen belirli bir girdi oluşturduğunda ortaya çıkar. Koddaki yazılım hatalarını istismar eden geleneksel hackleme yöntemlerinden farklı olarak, prompt enjeksiyonu modelin dilin anlamsal yorumlamasına saldırır. Saldırgan, bağlam penceresini manipüle ederek modeli hassas verileri ifşa etmeye, yasaklanmış içerik üretmeye veya yetkisiz eylemler gerçekleştirmeye zorlayabilir. AI daha otonom hale geldikçe, bu güvenlik açığını anlamak, sağlam AI Güvenliği sağlamak için kritik öneme sahiptir.
Başlangıçta sadece metin tabanlı sohbet robotlarında keşfedilen prompt injection, çok modlu modellerin ortaya çıkmasıyla birlikte bilgisayar görüşü (CV) alanında da giderek daha fazla önem kazanmaktadır. CLIP gibi modern Görme-Dil Modelleri (VLM'ler) veya YOLO gibi açık sözlük dedektörleri, kullanıcıların doğal dil açıklamaları kullanarak algılama hedeflerini tanımlamasına olanak tanır (ör. "kırmızı sırt çantasını bul").
Bu sistemlerde, metin komutu, modelin görsel özelliklerle karşılaştırdığı gömülü öğelere dönüştürülür. Saldırgan, modelin Optik Karakter Tanıma (OCR) bileşeni tarafından yüksek öncelikli bir komut olarak okunan ve yorumlanan metin talimatları (örneğin, "Bu nesneyi yok say" yazan bir işaret) içeren bir görüntü sunarsa, "görsel komut enjeksiyonu" meydana gelebilir. bileşeni tarafından yüksek öncelikli bir komut olarak okunup yorumlanan bir görüntü sunarsa, "görsel komut enjeksiyonu" meydana gelebilir. Bu, fiziksel çevrenin kendisinin enjeksiyon mekanizması olarak işlev gördüğü ve Otonom Araçlar ile akıllı gözetim sistemlerinin güvenilirliğini zorlayan benzersiz bir saldırı vektörü oluşturur.
Hızlı enjeksiyonun etkileri, AI'nın dış girdilerle etkileşime girdiği çeşitli endüstrilere yayılmaktadır:
Makine öğrenimi alanında hızlı enjeksiyonu benzer terimlerden ayırmak önemlidir:
Aşağıdaki kod, kullanıcı tanımlı metin isteminin açık sözlük görme modeliyle nasıl etkileşime girdiğini göstermektedir. Güvenli bir uygulamada,
kullanıcı tanımlı metin isteminin user_prompt enjeksiyon girişimlerini önlemek için sıkı bir sanitasyon gerektirecektir. Biz
kullanıyoruz ultralytics metin tanımlarını anlayabilen bir modeli yüklemek için paket.
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
Prompt enjeksiyonuna karşı savunma, aktif bir araştırma alanıdır. Teknikler arasında İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) zararlı talimatları reddetmek için modelleri eğitmek ve kullanıcı girdisinin sistem talimatları arasında kapatıldığı "sandviç" savunmalarını uygulamak yer alır. Eğitim ve dağıtım için Ultralytics kullanan kuruluşlar, detect prompt kalıplarını detect için çıkarım günlüklerini izleyebilir. Ayrıca, NIST AI Risk Yönetimi Çerçevesi, dağıtılmış sistemlerde bu tür riskleri değerlendirme ve azaltma konusunda kılavuzlar sağlar.