اكتشف كيف تتلاعب الهجمات العدائية بنماذج التعلم الآلي. تعرف على استراتيجيات الصندوق الأبيض والصندوق الأسود، والمخاطر التي تهدد سلامة الذكاء الاصطناعي، والدفاع باستخدام Ultralytics .
الهجمات العدائية هي فئة متطورة من تقنيات التلاعب المصممة لخداع نماذج التعلم الآلي (ML) لجعلها تقدم تنبؤات غير صحيحة بثقة عالية. تعمل هذه الهجمات عن طريق إدخال اضطرابات دقيقة، غالبًا ما تكون غير محسوسة ، على البيانات المدخلة — مثل الصور أو الصوت أو النص. على الرغم من أن هذه التغييرات تبدو غير ضارة أو عشوائية للمراقب البشري ، إلا أنها تستغل نقاط ضعف رياضية محددة في حدود اتخاذ القرار في الشبكات العصبية عالية الأبعاد. مع أصبحت أنظمة الذكاء الاصطناعي (AI) جزءًا لا يتجزأ من البنية التحتية الحيوية للسلامة، فإن فهم كيفية عمل نقاط الضعف هذه أمر ضروري لتطوير بروتوكولات أمان AI قوية وآليات دفاعية .
في عملية التدريب النموذجية للتعلم العميق (DL) ، يقوم النموذج بتحسين أوزانه لتقليل الأخطاء في مجموعة بيانات التدريب. ومع ذلك، فإن هذه النماذج تخلق بشكل أساسي خرائط معقدة في فضاء متعدد الأبعاد. يحسب الهجوم العدائي "الاتجاه" الدقيق في هذا الفضاء اللازم لدفع المدخلات عبر الحدود، مما يؤدي إلى قلب تصنيف النموذج. على سبيل المثال، في الرؤية الحاسوبية (CV)، قد يؤدي تغيير قيم البكسل لصورة باندا بمقدار محسوب من "الضوضاء" إلى قيام النظام بتصنيفها بشكل خاطئ على أنها جيبون، على الرغم من أن الصورة لا تزال تبدو تمامًا مثل الباندا للعين البشرية.
تصنف استراتيجيات الهجوم عمومًا حسب مستوى وصول المهاجم إلى النظام المستهدف:
على الرغم من أن الهجمات العدائية غالبًا ما يتم مناقشتها في الأبحاث النظرية، إلا أنها تشكل مخاطر ملموسة على عمليات النشر في العالم الحقيقي، خاصة في الأنظمة المستقلة والأمن.
لفهم مدى هشاشة بعض النماذج، من المفيد أن نرى مدى سهولة تعرض الصورة للاضطراب. في حين أن الاستدلال القياسي باستخدام نماذج مثل YOLO26 قوي للاستخدام العام، غالبًا ما يقوم الباحثون بمحاكاة الهجمات لتحسين مراقبة النموذج والدفاع عنه. يستخدم المثال المفاهيمي التالي PyTorch كيفية استخدام التدرجات لحساب اضطراب عدائي (ضوضاء) لصورة .
import torch.nn.functional as F
# Assume 'model' is a loaded PyTorch model and 'image' is a normalized tensor
# 'target_class' is the correct label index for the image
def generate_adversarial_noise(model, image, target_class, epsilon=0.01):
# Enable gradient calculation for the input image
image.requires_grad = True
# Forward pass: get prediction
output = model(image)
# Calculate loss based on the correct class
loss = F.nll_loss(output, target_class)
# Backward pass: calculate gradients of loss w.r.t input
model.zero_grad()
loss.backward()
# Create perturbation using the sign of the data gradient (FGSM)
# This pushes the image in the direction of maximizing error
perturbation = epsilon * image.grad.data.sign()
return perturbation
من المهم التمييز بين الهجمات العدائية وأشكال أخرى من فشل النموذج أو التلاعب به:
يعد تطوير الدفاعات ضد هذه الهجمات أحد المكونات الأساسية لـ MLOps الحديثة. تساعد تقنيات مثل التدريب التنافسي — حيث تتم إضافة أمثلة الهجمات إلى مجموعة التدريب — في جعل النماذج أكثر مرونة. تسهل منصات مثل Ultralytics إجراء تدريبات صارمة وعمليات التحقق من الصحة، مما يسمح للفرق بتقييم متانة النموذج قبل نشره على الأجهزة الطرفية.