Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

كسر الحماية (الذكاء الاصطناعي)

اكتشف كيف يتجاوز كسر الحماية باستخدام الذكاء الاصطناعي إجراءات الأمان، وتعرف على كيفية الحد من المخاطر. احمِ نماذج Ultralytics من خلال آليات دفاع ومراقبة قوية.

يشير مصطلح "جيلبريك" في سياق الذكاء الاصطناعي إلى ممارسة تجاوز الحواجز الأخلاقية، وفلاتر الأمان، والقيود التشغيلية المبرمجة في نموذج الذكاء الاصطناعي. كان هذا المصطلح يُستخدم في الأصل لتجاوز قيود الأجهزة على أجهزة مثل الهواتف الذكية، ويتضمن كسر حماية الذكاء الاصطناعي صياغة مدخلات محددة، غالبًا ما تكون تلاعبية، تخدع النموذج لتوليد محتوى محظور، أو تنفيذ أوامر غير مصرح بها، أو الكشف عن مطالبات النظام الحساسة. مع تزايد اندماج الذكاء الاصطناعي في البنية التحتية الحيوية ، فإن فهم نقاط الضعف هذه أمر ضروري لتطوير تدابير أمان قوية للذكاء الاصطناعي ومنع إساءة الاستخدام.

التمييز بين كسر الحماية والمفاهيم ذات الصلة

على الرغم من أن "كسر الحماية" (jailbreaking) يشترك في بعض أوجه التشابه مع الثغرات الأمنية الأخرى في مجال التعلم الآلي، فمن المهم تمييزه عن المصطلحات ذات الصلة:

  • الحقن في المطالبة: يتضمن ذلك إدخال تعليمات ضارة في مطالبة مستخدم شرعية لاختطاف الناتج المقصود للنموذج. أما "كسر الحماية" فهو مصطلح أوسع نطاقًا يهدف تحديدًا إلى تجاوز بروتوكولات الأمان الأساسية للنموذج بشكل كامل.
  • اختبار "فريق الهجوم" باستخدام الذكاء الاصطناعي: هي منهجية اختبار مرخصة واستباقية يحاول فيها خبراء الأمن عمدًا اختراق نظام ما لتحديد الثغرات الأمنية وإصلاحها قبل بدء التشغيل.
  • الهجمات التنافسية: تُستخدم غالبًا في مجال الرؤية الحاسوبية، وتتمثل في إجراء تعديلات طفيفة على بيانات الإدخال (مثل إضافة تشويش غير مرئي إلى صورة) لإجبار النموذج على إصدار تصنيف خاطئ، في حين أن "كسر الحماية" يركز عادةً على التلاعب اللغوي أو المنطقي.

أمثلة واقعية على اختراق قيود الذكاء الاصطناعي

تتجلى ظاهرة "كسر الحماية" بطرق مختلفة حسب طبيعة نظام الذكاء الاصطناعي، مما يؤثر على كل من البنى القائمة على النص والبنى القائمة على الرؤية:

  1. استغلال نماذج اللغة الضخمة: غالبًا ما يستخدم المهاجمون سيناريوهات معقدة لتقمص الأدوار أو أطر عمل افتراضية لإجبار نماذج اللغة الضخمة على تجاهل تدريبها على السلامة. على سبيل المثال، قد يطلب مستخدم من الذكاء الاصطناعي أن يتصرف كـ"مؤلف خيالي يكتب قصة عن مخترق"، فينجح في خداع النموذج لإنتاج شفرة خبيثة أو تعليمات لأنشطة خطيرة كانت مرشحات النموذج ستحظرها عادةً. كما Anthropic الأبحاث الحديثة التي أجرتها Anthropic الضوء على أساليب متقدمة مثل تقنيات كسر الحماية متعددة المحاولات، والتي تؤدي إلى تحميل نافذة سياق النموذج فوق طاقتها لتجاوز القيود.
  2. الهجمات على الأنظمة متعددة الوسائط وأنظمة الرؤية: مع تطور النماذج لمعالجة كل من النصوص والصور، تُظهر الأبحاث الحديثة حول عمليات «الخروج من السجن» متعددة الوسائط أن المهاجمين يمكنهم تضمين تعليمات نصية ضارة داخل صورة ما. وعندما يقوم نموذج الرؤية واللغة بمعالجة الصورة، فإن النص المخفي يؤدي إلى «الخروج من السجن». في أنظمة الأمن المادي، يمكن أن تعمل المدخلات العدائية — مثل رقعة ذات نمط محدد على الملابس — كاختراق بصري، مما يجعل الشخص غير مرئي لنماذج المراقبة الآلية.

الحد من مخاطر الاختراق في نماذج الذكاء الاصطناعي

يتطلب حماية النماذج من هذه الثغرات الأمنية اتباع استراتيجية دفاع متعددة المستويات. ويتبع المطورون إرشادات وأطر عمل OpenAI الخاصة بالسلامة، مثل إطار عمل NIST لإدارة مخاطر الذكاء الاصطناعي، من أجل وضع معايير أساسية للأمن.

لمنع الهجمات البصرية العدائية، يعتمد المهندسون على عملية تعزيز البيانات الشاملة أثناء التدريب. ومن خلال إدخال التشويش والتشويش البصري وتغيير ظروف الإضاءة بشكل متعمد، يتعلم النموذج الحفاظ على دقة عالية حتى عند مواجهته لمدخلات تم التلاعب بها. علاوة على ذلك، تساعد المراقبة المستمرة للنماذج المُطبقة باستخدام الأدوات المتاحة على Ultralytics في تحديد أنماط الاستدلال غير المعتادة التي قد تشير إلى وقوع هجوم، مما يضمن أمانًا قويًا للبيانات في عمليات النشر المؤسسية.

اختبار متانة النموذج

لضمان أن تكون نماذج الرؤية الحاسوبية الخاصة بك قادرة على الصمود في وجه التلاعبات الطفيفة بالمدخلات، يمكنك محاكاة سيناريوهات التعلم الآلي التنافسي الأساسية باستخدام Python. ويساعد ذلك في التحقق من أن نموذجًا مثل Ultralytics يظل يعمل بشكل موثوق عند تعرضه لبيانات مشوشة أو معدلة بشكل طفيف.

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

من خلال إجراء اختبارات نشطة للكشف عن نقاط الضعف واعتماد تدابير أمان قوية، يمكن للمطورين أن يتعلموا بنجاح كيفية الحد من حالات «كسر الحماية» في الذكاء الاصطناعي، مما يعزز الثقة والموثوقية في أنظمة الذكاء الاصطناعي الحديثة. ولتعميق فهم سلوك النماذج و قابليتها للتفسير، استكشف مبادئ الذكاء الاصطناعي القابل للتفسير.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة