Adversarial Attacks
استكشف كيف تتلاعب الهجمات العدائية بنماذج التعلم الآلي. تعرف على استراتيجيات الصندوق الأبيض والصندوق الأسود، والمخاطر على سلامة الذكاء الاصطناعي، والدفاع باستخدام Ultralytics YOLO26.
الهجمات العدائية هي فئة متطورة من تقنيات التلاعب المصممة لخداع نماذج التعلم الآلي (ML) لتقديم تنبؤات غير صحيحة بثقة عالية. تعمل هذه الهجمات عن طريق إدخال اضطرابات طفيفة، غالباً ما تكون غير محسوسة، في بيانات الإدخال مثل الصور أو الصوت أو النص. وبينما تبدو هذه التغييرات غير ضارة أو عشوائية للمراقب البشري، إلا أنها تستغل ثغرات رياضية محددة في حدود القرار للشبكات العصبية عالية الأبعاد. مع تزايد تكامل أنظمة الذكاء الاصطناعي (AI) في البنية التحتية الحيوية للسلامة، أصبح فهم كيفية عمل هذه الثغرات أمراً ضرورياً لتطوير بروتوكولات سلامة الذكاء الاصطناعي وآليات دفاع قوية.
Link to this sectionكيف تعمل الهجمات العدائية#
في عملية تدريب التعلم العميق (DL) النموذجية، يقوم النموذج بتحسين أوزانه لتقليل الخطأ في مجموعة بيانات التدريب. ومع ذلك، تقوم هذه النماذج بإنشاء خرائط معقدة في مساحة متعددة الأبعاد. تحسب الهجمة العدائية "الاتجاه" الدقيق في هذه المساحة المطلوب لدفع المدخلات عبر حد معين، مما يؤدي إلى قلب تصنيف النموذج. على سبيل المثال، في الرؤية الحاسوبية (CV)، قد يؤدي تغيير قيم البكسل لصورة باندا بمقدار محسوب من "الضوضاء" إلى جعل النظام يصنفها بثقة خاطئة على أنها ظبي، على الرغم من أن الصورة تبدو تماماً كباندا للعين البشرية.
تصنف استراتيجيات الهجوم بشكل عام حسب مستوى الوصول الذي يمتلكه المهاجم إلى النظام المستهدف:
- هجمات الصندوق الأبيض: يتمتع المهاجم بشفافية كاملة في بنية النموذج، والتدرجات، وأوزان النموذج. هذا يسمح له بحساب الاضطراب الأكثر فاعلية رياضياً، وغالباً ما يستخدم تقنيات مثل طريقة التدرج السريع (FGSM).
- هجمات الصندوق الأسود: لا يمتلك المهاجم أي معرفة بمعلمات النموذج الداخلية ولا يمكنه سوى ملاحظة المدخلات والمخرجات. غالباً ما يستخدم المهاجمون "نموذجاً بديلاً" لإنشاء أمثلة عدائية تنتقل بفاعلية إلى النظام المستهدف، وهي خاصية تُعرف بالقابلية للنقل.
Link to this sectionالتطبيقات والمخاطر في العالم الحقيقي#
على الرغم من مناقشتها غالباً في البحوث النظرية، إلا أن الهجمات العدائية تشكل مخاطر ملموسة على عمليات النشر في العالم الحقيقي، لا سيما في الأنظمة الذاتية والأمن.
- المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على اكتشاف الكائنات لتفسير إشارات المرور. أظهرت الأبحاث أن وضع ملصقات أو أشرطة مصممة بعناية على إشارة التوقف يمكن أن يخدع نظام الرؤية في المركبة ليدركها على أنها إشارة حد سرعة. هذا النوع من الهجوم في العالم المادي قد يؤدي إلى إخفاقات خطيرة في تطبيقات الذكاء الاصطناعي في السيارات.
- المتهربون من التعرف على الوجه: يمكن اختراق أنظمة الأمان التي تتحكم في الوصول بناءً على السمات الحيوية بواسطة "رقع" عدائية. يمكن أن تكون هذه أنماطاً مطبوعة يتم ارتداؤها على النظارات أو الملابس لتعطيل عملية استخراج الميزات. هذا يسمح لفرد غير مصرح له إما بتجنب الكشف تماماً أو انتحال شخصية مستخدم معين، متجاوزاً أنظمة إنذار الأمن.
Link to this sectionتوليد الأمثلة العدائية باستخدام Python#
To understand how fragile some models can be, it is helpful to see how easily an image can be perturbed. While standard inference with models like YOLO26 is robust for general use, researchers often simulate attacks to improve model monitoring and defense. The following conceptual example uses PyTorch to show how gradients are used to calculate an adversarial perturbation (noise) for an image.
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbationLink to this sectionمفاهيم ذات صلة#
من المهم التمييز بين الهجمات العدائية وأشكال أخرى من فشل النموذج أو التلاعب:
- تسميم البيانات: على عكس الهجمات العدائية التي تتلاعب بـ المدخلات أثناء الاستدلال (وقت الاختبار)، يتضمن تسميم البيانات إفساد بيانات التدريب نفسها قبل بناء النموذج، مما يؤدي إلى زرع أبواب خلفية أو تحيزات خفية.
- حقن الأوامر (Prompt Injection): هذا خاص بـ النماذج اللغوية الكبيرة (LLMs) وواجهات النصوص. ورغم تشابهه مفاهيمياً -أي خداع النموذج- إلا أنه يعتمد على التلاعب اللغوي الدلالي بدلاً من الاضطراب الرياضي لبيانات البكسل أو الإشارات.
- الإفراط في التخصيص (Overfitting): هذا فشل في التدريب حيث يتعلم النموذج الضوضاء في بيانات التدريب بدلاً من النمط الأساسي. غالباً ما تكون النماذج المفرطة في التخصيص أكثر عرضة للهجمات العدائية لأن حدود القرار الخاصة بها معقدة للغاية وهشة.
يعد تطوير الدفاعات ضد هذه الهجمات مكوناً أساسياً في MLOps الحديث. تساعد تقنيات مثل التدريب العدائي -حيث تُضاف أمثلة تعرضت للهجوم إلى مجموعة التدريب- النماذج على أن تصبح أكثر مرونة. تسهل منصات مثل Ultralytics Platform خطوط أنابيب التدريب والتحقق الصارمة، مما يسمح للفرق بتقييم قوة النموذج قبل نشره على الأجهزة الطرفية.






