اكتشف كيف يستغل حقن المطالبات نقاط الضعف في الذكاء الاصطناعي، ويؤثر على الأمان، وتعلم استراتيجيات لحماية أنظمة الذكاء الاصطناعي من الهجمات الخبيثة.
الحقن الموجه هو ثغرة أمنية خطيرة تؤثر على الأنظمة المبنية على النماذج اللغوية الكبيرة (LLMs) وغيرها من تقنيات الذكاء الاصطناعي التوليدي الأخرى. يحدث ذلك عندما يقوم مستخدم خبيث بصياغة مدخلات محددة - غالبًا ما تكون متخفية في شكل استعلام عادي - يخدع نموذج الذكاء الاصطناعي ليتجاهل التعليمات الأصلية التي وضعها المطور وينفذ أوامر غير مقصودة. يشبه إلى حد كبير كيف يسمح حقن SQL للمهاجمين بالتلاعب بقواعد البيانات من خلال التدخل في استعلامات الواجهة الخلفية، يستهدف الحقن الفوري معالجة اللغة الطبيعية (NLP) مستغلًا حقيقة أن العديد من النماذج الحديثة تعالج بيانات المستخدم وتعليمات النظام ضمن نفس السياق النافذة.
في تطبيق الذكاء الاصطناعي النموذجي، يوفر المطور "موجه النظام" الذي يحدد القواعد والشخصية و وحدود الأمان لوكيل الذكاء الاصطناعي. ومع ذلك، نظرًا لأن وكلاء الذكاء الاصطناعي مصممة لاتباع التعليمات بطلاقة، فإنها قد تواجه صعوبة في التمييز بين موجه النظام الموثوق ومدخلات المستخدم. يتجاوز هجوم الحقن الموجه الناجح في المطالبة حواجز الأمان الخاصة بالنظام، مما قد يؤدي إلى يؤدي إلى تسرب البيانات، أو إجراءات غير مصرح بها، أو توليد محتوى ضار. هذا التهديد مصنف حاليًا كمصدر قلق رئيسي في OWASP لأفضل 10 تطبيقات LLM، مما يسلط الضوء على أهميته في مشهد الأمن السيبراني.
يمكن أن تظهر هجمات الحقن الموجه بطرق مختلفة، بدءًا من المزاح المرح إلى الاختراقات الأمنية الخطيرة.
على الرغم من ارتباطها في البداية بالنماذج النصية فقط، إلا أن الحقن الفوري أصبح أكثر أهمية في الرؤية الحاسوبية (CV) بسبب ظهور النماذج متعددة الوسائط. نماذج لغة الرؤية (VLMs) مثل CLIP أو أو كاشفات المفردات المفتوحة التي تسمح للمستخدمين بتحديد الكائنات التي يجب العثور عليها باستخدام الأوصاف النصية.
على سبيل المثال، في نماذج مثل YOLO يتم تحديد الفئات المراد يتم تعريف الفئات المراد اكتشافها بواسطة مطالبات نصية. يمكن للمدخلات الخبيثة نظريًا التلاعب بمساحة التضمين من أجل لتصنيف الأشياء بشكل خاطئ أو تجاهل التهديدات.
يوضح الرمز التالي كيف تتفاعل المطالبات النصية مع نموذج رؤية، يمثل نقطة الدخول حيث يمكن أن تحدث فيها محاولات الحقن:
from ultralytics import YOLO
# Load a YOLO-World model which accepts text prompts for class definitions
model = YOLO("yolov8s-world.pt")
# Define custom classes via text prompts
# A malicious prompt here could attempt to confuse the model's semantic understanding
model.set_classes(["person", "suspicious object"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
من الضروري التفريق بين الحقن الفوري والمصطلحات الأخرى في منظومة الذكاء الاصطناعي:
يتطلب الدفاع ضد الحقن الفوري نهج الدفاع في العمق، حيث لا يوجد حل واحد مضمون حاليًا.
يجب على المؤسسات الرجوع إلى أطر العمل مثل إطار عمل NIST لإدارة مخاطر الذكاء الاصطناعي لتنفيذ ممارسات أمنية شاملة لعمليات نشر الذكاء الاصطناعي الخاصة بهم.