استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

الهجمات العدائية

اكتشف تأثير الهجمات العدائية على أنظمة الذكاء الاصطناعي وأنواعها وأمثلة واقعية واستراتيجيات الدفاع لتعزيز أمان الذكاء الاصطناعي.

الهجمات المعاكسة هي تقنية تستخدم لخداع نماذج التعلم الآلي من خلال تزويدها بمدخلات ضارة ومصممة عن قصد. يتم إنشاء هذه المدخلات، المعروفة بالأمثلة المعاكسة، عن طريق إجراء تعديلات طفيفة على البيانات المشروعة. غالبًا ما تكون التغييرات صغيرة جدًا بحيث لا يمكن للعين البشرية إدراكها ولكنها قد تتسبب في قيام شبكة عصبية بتقديم تنبؤ خاطئ بثقة عالية. يمثل هذا الضعف مصدر قلق أمني كبير لأنظمة الذكاء الاصطناعي، لا سيما في تطبيقات الرؤية الحاسوبية الهامة حيث تكون الموثوقية و الدقة ذات أهمية قصوى.

كيف تعمل الهجمات المعاكسة

تستغل الهجمات المعاكسة الطريقة التي تتعلم بها نماذج التعلم العميق وتتخذ القرارات. يتعلم النموذج التعرف على الأنماط من خلال تحديد "حد القرار" الذي يفصل بين فئات مختلفة من البيانات. هدف المهاجم هو إيجاد الطريقة الأكثر فعالية لتغيير الإدخال بحيث يتجاوز هذا الحد، مما يتسبب في تصنيف خاطئ. الاضطراب المضاف ليس ضوضاء عشوائية؛ إنها إشارة محسوبة بعناية مصممة لاستغلال نقاط الضعف المحددة في النموذج. توفر الأبحاث من مؤسسات مثل جامعة كارنيجي ميلون رؤى عميقة حول هذه الآليات.

أنواع الهجمات العدائية

تصنف الهجمات بشكل عام بناءً على معرفة المهاجم بالنموذج المستهدف.

  • هجمات الصندوق الأبيض: يمتلك المهاجم معرفة كاملة بهندسة النموذج ومعلماته وبيانات التدريب. يتيح هذا الوصول الكامل إنشاء هجمات فعالة للغاية، مثل طريقة علامة التدرج السريع (FGSM)، وهي قوية لاختبار قوة النموذج.
  • هجمات الصندوق الأسود: لا يمتلك المهاجم معرفة داخلية بالنموذج ويمكنه فقط الاستعلام عنه من خلال توفير المدخلات ومراقبة مخرجاته. هذه الهجمات أكثر واقعية في سيناريوهات العالم الحقيقي. غالبًا ما تعتمد على مبدأ قابلية النقل، حيث من المحتمل أن تخدع العينة الخصومية التي تم إنشاؤها لخداع نموذج ما نموذجًا آخر، وهي ظاهرة استكشفها باحثون في Google AI.

أمثلة واقعية

  1. التصنيف الخاطئ في التعرف على الصور: يتضمن مثال معروف تصنيف الصور نموذجًا يحدد بشكل صحيح صورة لباندا. بعد إضافة طبقة غير محسوسة من الضوضاء الخصومية، يصنف النموذج نفسه الصورة بشكل خاطئ على أنها جيبون بيقين كبير.
  2. خداع الأنظمة المستقلة: أثبت الباحثون بنجاح أن وضع ملصقات بسيطة على علامة قف يمكن أن يخدع نموذج اكتشاف الكائنات في مركبة ذاتية القيادة. قد يخطئ النموذج في تحديد العلامة على أنها علامة "الحد الأقصى للسرعة 45"، وهو فشل حرج لأي ذكاء اصطناعي في أنظمة السيارات. تُعرف هذه باسم الهجمات الخصومية المادية.

الدفاعات ضد الهجمات العدائية

يعد تأمين النماذج ضد هذه التهديدات مجالًا نشطًا للبحث. تتضمن استراتيجيات الدفاع الشائعة ما يلي:

  • التدريب التنافسي: يعتبر هذا حاليًا أحد أكثر وسائل الدفاع فعالية. وهو ينطوي على إنشاء أمثلة معارضة وإدراجها في مجموعة تدريب النموذج. تساعد هذه العملية، وهي شكل من أشكال زيادة البيانات، النموذج على تعلم تجاهل التشويشات المعارضة وبناء تمثيلات أكثر قوة.
  • المعالجة المسبقة للإدخال: يمكن لتطبيق تحويلات مثل التمويه أو تقليل الضوضاء أو ضغط JPEG على صور الإدخال قبل إدخالها في النموذج أن يزيل أو يقلل أحيانًا من الضوضاء العدائية.
  • تجميع النماذج: يمكن أن يؤدي الجمع بين تنبؤات نماذج مختلفة متعددة إلى صعوبة قيام المهاجم بصياغة مثال خصومة واحد يخدعهم جميعًا في وقت واحد.

مستقبل تعلم الآلة الخصومي

غالبًا ما يوصف مجال التعلم الآلي الخصومي بأنه "سباق تسلح" مستمر، مع ظهور هجمات ودفاعات جديدة باستمرار. يتطلب بناء ذكاء اصطناعي جدير بالثقة ممارسات تطوير واختبار قوية. تساعد أطر عمل مثل MITRE ATLAS للدفاع المستنير بالتهديدات الخصومية المؤسسات على فهم هذه التهديدات والاستعداد لها. تقوم منظمات مثل NIST وشركات مثل Microsoft بإجراء أبحاث نشطة حول الدفاعات. يساعد دمج مبادئ من الذكاء الاصطناعي القابل للتفسير (XAI) في تحديد نقاط الضعف، بينما يساعد الالتزام بإرشادات أخلاقيات الذكاء الاصطناعي القوية في نشر النماذج بشكل مسؤول. يضمن البحث المستمر واليقظة إمكانية نشر نماذج مثل Ultralytics YOLO11 بشكل آمن وموثوق في التطبيقات الواقعية. لمعرفة المزيد حول تطوير النماذج الآمنة، استكشف البرامج التعليمية الخاصة بنا وفكر في استخدام منصات مثل Ultralytics HUB لسير عمل مبسط وآمن.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة