مسرد المصطلحات

الهجمات العدائية

اكتشف تأثير الهجمات العدائية على أنظمة الذكاء الاصطناعي، وأنواعها، وأمثلة من العالم الحقيقي، واستراتيجيات الدفاع لتعزيز أمن الذكاء الاصطناعي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثل الهجمات العدائية تحدياً أمنياً كبيراً في مجال الذكاء الاصطناعي والتعلم الآلي. تنطوي هذه الهجمات على صياغة مدخلات خبيثة بشكل متعمد، والمعروفة باسم أمثلة عدائية، مصممة لخداع نماذج التعلم الآلي وجعلها تقوم بتنبؤات أو تصنيفات غير صحيحة. وغالباً ما تحتوي هذه المدخلات على اضطرابات خفية - تغييرات غير محسوسة تقريباً للبشر - ولكنها كافية لخداع النموذج المستهدف، مما يسلط الضوء على نقاط الضعف حتى في أحدث الأنظمة مثل نماذج التعلم العميق.

كيف تعمل الهجمات العدائية

الفكرة الأساسية وراء الهجمات العدائية هي استغلال الطريقة التي تتعلم بها النماذج وتتخذ قراراتها. تتعلم النماذج، خاصةً النماذج المعقدة مثل الشبكات العصبية (NN)، الأنماط من كميات هائلة من البيانات. يقوم المهاجمون بالاستفادة من المعرفة حول النموذج (هجمات الصندوق الأبيض) أو مراقبة سلوك المدخلات والمخرجات (هجمات الصندوق الأسود) للعثور على تغييرات صغيرة في المدخلات التي من شأنها أن تدفع قرار النموذج عبر الحدود، مما يؤدي إلى حدوث خطأ. على سبيل المثال، يمكن أن يؤدي التغيير الطفيف في البيكسلات في صورة أو كلمات في جملة ما إلى تغيير جذري في مخرجات النموذج بينما تبدو طبيعية للمراقب البشري.

أمثلة وتطبيقات من العالم الحقيقي

تشكل الهجمات العدائية مخاطر ملموسة في مختلف تطبيقات الذكاء الاصطناعي:

  1. الرؤية الحاسوبية (CV): في الكشف عن الأجسام، قد يضع أحد المهاجمين ملصقات مصممة بعناية على علامة توقف، مما يتسبب في أن يقوم نظام الرؤية في السيارة ذاتية القيادة، ربما باستخدام نماذج مثل Ultralytics YOLO، لتصنيفها بشكل خاطئ على أنها علامة حد للسرعة أو تفشل في اكتشافها بالكامل. وهذا له آثار خطيرة على السلامة في حلول الذكاء الاصطناعي في السيارات. وبالمثل، يمكن خداع أنظمة التعرّف على الوجه من خلال أنماط معادية مطبوعة على النظارات أو الملابس.
  2. معالجة اللغة الطبيعية (NLP): يمكن تجاوز فلاتر الرسائل غير المرغوب فيها عن طريق إدراج أحرف أو مرادفات معدّلة بمهارة في رسائل البريد الإلكتروني الضارة، مما يخدع المصنف. وبالمثل، يمكن التهرب من أنظمة الإشراف على المحتوى التي تقوم بتحليل المشاعر، مما يسمح للمحتوى الضار بالمرور.
  3. تحليل الصور الطبية: من المحتمل أن تؤدي الضوضاء العدائية المضافة إلى الفحوصات الطبية إلى التشخيص الخاطئ، على سبيل المثال، مما قد يؤدي إلى عدم اكتشاف نموذج ما لورم ما أو تحديد ورم حميد على أنه خبيث بشكل خاطئ، مما يؤثر على الذكاء الاصطناعي في مجال الرعاية الصحية.

أنواع الهجمات العدائية

توجد العديد من الطرق لتوليد الأمثلة العدائية، بما في ذلك:

  • طريقة إشارة التدرج السريع (FGSM): طريقة بسيطة وسريعة تستخدم تدرج دالة الخسارة بالنسبة للمدخلات لإنشاء اضطرابات.
  • نزول التدرج المتوقع (PGD): طريقة تكرارية، أقوى بشكل عام من طريقة FGSM، تأخذ خطوات صغيرة متعددة لإيجاد اضطرابات فعالة.
  • هجمات كارليني وفاجنر (C&W): عائلة من الهجمات القائمة على التحسين غالبًا ما تكون فعالة للغاية ولكنها أكثر كثافة من الناحية الحسابية.

الدفاعات ضد هجمات الخصوم

تتضمن حماية نماذج الذكاء الاصطناعي عدة استراتيجيات دفاعية:

الهجمات العدائية مقابل التهديدات الأمنية الأخرى للذكاء الاصطناعي

تستهدف الهجمات العدائية على وجه التحديد سلامة اتخاذ القرار في النموذج في وقت الاستدلال من خلال التلاعب بالمدخلات. وهي تختلف عن التهديدات الأمنية الأخرى للذكاء الاصطناعي الموضحة في أطر عمل مثل OWASP AI Security Top 10:

  • تسميم البيانات: يتضمن هذا الأمر إفساد بيانات التدريب لإفساد النموذج أثناء مرحلة التعلّم، مما يؤدي إلى إنشاء أبواب خلفية أو إضعاف الأداء.
  • قلب/استخراج النموذج: الهجمات التي تهدف إلى سرقة النموذج نفسه أو المعلومات الحساسة المضمنة فيه، وانتهاك الملكية الفكرية أو خصوصية البيانات.
  • التحيز الخوارزمي: على الرغم من أن التحيز يمثل أيضاً مصدر قلق بالغ الأهمية فيما يتعلق بأخلاقيات الذكاء الاصطناعي، إلا أن التحيز ينبع عادةً من البيانات المنحرفة أو الافتراضات الخاطئة، مما يؤدي إلى نتائج غير عادلة، بدلاً من التلاعب الخبيث بالمدخلات عند الاستدلال. الممارسات الجيدة لأمن البيانات ضرورية للتخفيف من التهديدات المختلفة.

مستقبل هجمات ودفاعات الخصوم

إن مجال تعلم الآلة العدائي هو سباق تسلح ديناميكي، مع ظهور هجمات ودفاعات جديدة باستمرار. وتركز الأبحاث على تطوير هجمات أكثر تطوراً (على سبيل المثال، هجمات قابلة للتحقق مادياً، وهجمات على طرائق مختلفة) ودفاعات قوية قابلة للتطبيق عالمياً. إن فهم هذه التهديدات المتطورة أمر بالغ الأهمية لبناء أنظمة تعلم عميق جديرة بالثقة. يمكن أن يساعد دمج مبادئ من الذكاء الاصطناعي القابل للتفسير (XAI) في فهم نقاط ضعف النماذج، مع الالتزام بأخلاقيات الذكاء الاصطناعي القوية التي توجه التطوير المسؤول. منظمات مثل NIST وشركات مثل Google و Microsoft تساهم بنشاط في الأبحاث والمبادئ التوجيهية. تضمن اليقظة والأبحاث المستمرة نماذج مثل Ultralytics YOLO11 تحافظ على دقة وموثوقية عالية في النشر في العالم الحقيقي. استكشف دروسUltralytics التعليمية الشاملة لأفضل الممارسات في التدريب على النماذج الآمنة ونشرها.

قراءة الكل