Prompt enjeksiyonunun AI güvenlik açıklarından nasıl yararlandığını, güvenliği nasıl etkilediğini ve AI sistemlerini kötü amaçlı saldırılardan koruma stratejilerini öğrenin.
İstem enjeksiyonu, aşağıdakiler üzerine kurulu sistemleri etkileyen kritik bir güvenlik açığıdır Büyük Dil Modelleri (LLM'ler) ve diğer üretken yapay zeka teknolojileri. Kötü niyetli bir kullanıcı, genellikle normal bir girdi gibi gizlenmiş belirli bir girdi oluşturduğunda ortaya çıkar. sorgusu - yapay zeka modelini orijinal geliştirici talimatlarını göz ardı etmesi ve istenmeyen talimatları uygulaması için kandırır Komutlar. Tıpkı SQL enjeksiyonunun saldırganlar arka uç sorgularına müdahale ederek veritabanlarını manipüle etmek için, istem enjeksiyonu Doğal Dil İşleme (NLP) Birçok modern modelin kullanıcı verilerini ve sistem talimatlarını aynı bağlamda işlediği gerçeğinden yararlanan mantık Pencere.
Tipik bir yapay zeka uygulamasında, bir geliştirici, kuralları, personayı ve kişileri tanımlayan bir "sistem istemi" sağlar. YZ ajanı için güvenlik sınırları. Bununla birlikte, LLM'ler talimatları akıcı bir şekilde takip etmek üzere tasarlanmış olsalar da, yetkili sistem istemi arasında ayrım yapmakta zorlanabilirler. ve kullanıcının girdisi. Başarılı bir istem enjeksiyonu saldırısı, sistemin güvenlik korkuluklarını geçersiz kılar ve potansiyel olarak veri sızıntısına, yetkisiz eylemlere veya zararlı içerik oluşturulmasına yol açabilir. Bu tehdit şu anda sıralamada birincil endişe olarak LLM Uygulamaları için OWASP Top 10, siber güvenlik ortamındaki önemini vurguluyor.
İstemli enjeksiyon saldırıları, şakadan ciddi güvenlik ihlallerine kadar çeşitli şekillerde ortaya çıkabilir.
Başlangıçta yalnızca metin modelleriyle ilişkilendirilse de, istem enjeksiyonu şu alanlarda giderek daha önemli hale gelmektedir yükselişi nedeniyle bilgisayarla görme (CV) çok modlu modeller. Görme-Dil Modelleri (VLM'ler) CLIP veya açık kelime dedektörleri, kullanıcıların metin açıklamalarını kullanarak hangi nesneleri bulacaklarını tanımlamalarına olanak tanır.
Örneğin, YOLO gibi modellerde, sınıflar tespit edilecek metin istemleri tarafından tanımlanır. Kötü niyetli bir girdi teorik olarak gömme alanını şu şekilde manipüle edebilir nesneleri yanlış sınıflandırabilir veya tehditleri görmezden gelebilir.
Aşağıdaki kod, metin istemlerinin bir görüntü modeli ile nasıl arayüz oluşturduğunu göstermekte ve aşağıdaki giriş noktasını temsil etmektedir enjeksiyon girişimleri meydana gelebilir:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Hızlı enjeksiyonu YZ ekosistemindeki diğer terimlerden ayırmak hayati önem taşımaktadır:
Hızlı enjeksiyona karşı savunma, derinlemesine bir savunma yaklaşımı gerektirir, çünkü şu anda tek bir çözüm kusursuz değildir.
Kuruluşlar aşağıdaki gibi çerçevelere başvurmalıdır NIST Yapay Zeka Risk Yönetimi Çerçevesi ' ni uygulamak için Yapay zeka dağıtımları için kapsamlı güvenlik uygulamaları.

