Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الهجمات العدائية

اكتشف كيف تتلاعب الهجمات العدائية بنماذج التعلم الآلي. تعرف على استراتيجيات الصندوق الأبيض والصندوق الأسود، والمخاطر التي تهدد سلامة الذكاء الاصطناعي، والدفاع باستخدام Ultralytics .

الهجمات العدائية هي فئة متطورة من تقنيات التلاعب المصممة لخداع نماذج التعلم الآلي (ML) لجعلها تقدم تنبؤات غير صحيحة بثقة عالية. تعمل هذه الهجمات عن طريق إدخال اضطرابات دقيقة، غالبًا ما تكون غير محسوسة ، على البيانات المدخلة — مثل الصور أو الصوت أو النص. على الرغم من أن هذه التغييرات تبدو غير ضارة أو عشوائية للمراقب البشري ، إلا أنها تستغل نقاط ضعف رياضية محددة في حدود اتخاذ القرار في الشبكات العصبية عالية الأبعاد. مع أصبحت أنظمة الذكاء الاصطناعي (AI) جزءًا لا يتجزأ من البنية التحتية الحيوية للسلامة، فإن فهم كيفية عمل نقاط الضعف هذه أمر ضروري لتطوير بروتوكولات أمان AI قوية وآليات دفاعية .

كيف تعمل الهجمات المعاكسة

في عملية التدريب النموذجية للتعلم العميق (DL) ، يقوم النموذج بتحسين أوزانه لتقليل الأخطاء في مجموعة بيانات التدريب. ومع ذلك، فإن هذه النماذج تخلق بشكل أساسي خرائط معقدة في فضاء متعدد الأبعاد. يحسب الهجوم العدائي "الاتجاه" الدقيق في هذا الفضاء اللازم لدفع المدخلات عبر الحدود، مما يؤدي إلى قلب تصنيف النموذج. على سبيل المثال، في الرؤية الحاسوبية (CV)، قد يؤدي تغيير قيم البكسل لصورة باندا بمقدار محسوب من "الضوضاء" إلى قيام النظام بتصنيفها بشكل خاطئ على أنها جيبون، على الرغم من أن الصورة لا تزال تبدو تمامًا مثل الباندا للعين البشرية.

تصنف استراتيجيات الهجوم عمومًا حسب مستوى وصول المهاجم إلى النظام المستهدف:

  • هجمات الصندوق الأبيض: يتمتع المهاجم بشفافية كاملة في بنية النموذج والتدرجات و أوزان النموذج. وهذا يسمح له بحساب الاضطراب الأكثر فعالية رياضيًا، غالبًا باستخدام تقنيات مثل طريقة علامة التدرج السريع (FGSM).
  • هجمات الصندوق الأسود: لا يمتلك المهاجم أي معرفة بمعلمات النموذج الداخلي ويمكنه فقط مراقبة المدخلات والمخرجات. غالبًا ما يستخدم المهاجمون "نموذجًا بديلًا" لتوليد أمثلة معادية تنتقل بشكل فعال إلى النظام المستهدف ، وهي خاصية تُعرف باسم قابلية النقل.

التطبيقات والمخاطر في العالم الحقيقي

على الرغم من أن الهجمات العدائية غالبًا ما يتم مناقشتها في الأبحاث النظرية، إلا أنها تشكل مخاطر ملموسة على عمليات النشر في العالم الحقيقي، خاصة في الأنظمة المستقلة والأمن.

  • المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على اكتشاف الأجسام لتفسير إشارات المرور. أظهرت الأبحاث أن وضع ملصقات أو شريط لاصق مصمم بعناية على إشارة التوقف يمكن أن يخدع نظام الرؤية في السيارة ليعتبرها إشارة حدود السرعة. هذا النوع من الهجمات في العالم المادي يمكن أن يؤدي إلى أعطال خطيرة في الذكاء الاصطناعي في تطبيقات السيارات.
  • المتحايلونعلى التعرف على الوجه: يمكن اختراق أنظمة الأمان التي تتحكم في الوصول بناءً على المقاييس الحيوية بواسطة "رقع" معادية. ويمكن أن تكون هذه الرقع عبارة عن أنماط مطبوعة توضع على النظارات أو الملابس وتعطل عملية استخراج الميزات. وهذا يسمح للأفراد غير المصرح لهم إما بالتهرب من الكشف تمامًا أو انتحال شخصية مستخدم معين، متجاوزين أنظمة الإنذار الأمنية.

إنشاء أمثلة معاكسة في Python

لفهم مدى هشاشة بعض النماذج، من المفيد أن نرى مدى سهولة تعرض الصورة للاضطراب. في حين أن الاستدلال القياسي باستخدام نماذج مثل YOLO26 قوي للاستخدام العام، غالبًا ما يقوم الباحثون بمحاكاة الهجمات لتحسين مراقبة النموذج والدفاع عنه. يستخدم المثال المفاهيمي التالي PyTorch كيفية استخدام التدرجات لحساب اضطراب عدائي (ضوضاء) لصورة .

import torch.nn.functional as F

# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image


def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
    # Enable gradient calculation for the input image
    image.requires_grad = True

    # Forward pass: get prediction
    output = model(image)

    # Calculate loss based on the correct class
    loss = F.nll_loss(output, target_class)

    # Backward pass: calculate gradients of loss w.r.t input
    model.zero_grad()
    loss.backward()

    # Create perturbation using the sign of the data gradient (FGSM)
    # This pushes the image in the direction of maximizing error
    perturbation = epsilon * image.grad.data.sign()

    return perturbation

المفاهيم ذات الصلة

من المهم التمييز بين الهجمات العدائية وأشكال أخرى من فشل النموذج أو التلاعب به:

  • تسمم البيانات: على عكس الهجمات العدائية التي تتلاعب بالمدخلات أثناء الاستدلال (وقت الاختبار)، فإن تسمم البيانات ينطوي على إفساد بيانات التدريب نفسها قبل بناء النموذج، وتضمين أبواب خلفية خفية أو تحيزات.
  • الحقن الفوري: هذا خاص بنماذج اللغة الكبيرة (LLMs) وواجهات النص. على الرغم من أنه مشابه من الناحية النظرية - خداع النموذج - إلا أنه يعتمد على التلاعب اللغوي الدلالي بدلاً من الاضطراب الرياضي لبيانات البكسل أو الإشارة.
  • التكيف المفرط: هو فشل في التدريب حيث يتعلم النموذج الضوضاء في بيانات التدريب بدلاً من النمط الأساسي. غالبًا ما تكون النماذج المفرطة التكيف أكثر عرضة للهجمات العدائية لأن حدود قراراتها معقدة للغاية وهشة.

يعد تطوير الدفاعات ضد هذه الهجمات أحد المكونات الأساسية لـ MLOps الحديثة. تساعد تقنيات مثل التدريب التنافسي — حيث تتم إضافة أمثلة الهجمات إلى مجموعة التدريب — في جعل النماذج أكثر مرونة. تسهل منصات مثل Ultralytics إجراء تدريبات صارمة وعمليات التحقق من الصحة، مما يسمح للفرق بتقييم متانة النموذج قبل نشره على الأجهزة الطرفية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن