Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الهجمات العدائية

اكتشف تأثير الهجمات العدائية على أنظمة الذكاء الاصطناعي وأنواعها وأمثلة واقعية واستراتيجيات الدفاع لتعزيز أمان الذكاء الاصطناعي.

الهجمات الخادعة هي تقنية متطورة تُستخدم لخداع نماذج التعلم الآلي نماذج التعلم الآلي عن طريق إدخال اضطرابات مصممة عن قصد في بيانات الإدخال. هذه التعديلات، التي غالباً ما تكون غير محسوسة للعين البشرية, تتلاعب بالعمليات الرياضية داخل الشبكة العصبية، مما يجعلها تقوم تنبؤات عالية الثقة ولكنها غير صحيحة. كما أصبح الذكاء الاصطناعي بشكل متزايد في الأنظمة الحرجة، فإن فهم نقاط الضعف هذه أمر ضروري لضمان أن يظل نشر النموذج آمنًا وموثوقًا.

الآليات والتقنيات

المبدأ الأساسي للهجوم العدائي هو تحديد "النقاط العمياء" في حدود قرار النموذج. في التعلم العميق، تتعلم النماذج classify البيانات عن طريق تحسين أوزان النموذج لتقليل الخطأ. يستغل المهاجمون استغلال ذلك من خلال حساب التغييرات الدقيقة اللازمة لدفع المدخلات عبر عتبة التصنيف. على سبيل المثال على سبيل المثال، فإن طريقة إشارة التدرج السريع (FGSM)، التي قدمها باحثون من بينهم إيان جودفيلو، حيث تقوم بتعديل قيم بكسل المدخلات في الاتجاه الذي يزيد من دالة الخسارة, مما يؤدي إلى إنشاء مثال معادٍ بسرعة.

يتم تصنيف الهجمات بشكل عام حسب مستوى المعلومات المتاحة للمهاجم:

  • هجمات الصندوق الأبيض: يمتلك المهاجم حق الوصول الكامل إلى بنية النموذج ومعلماته. يسمح هذا يسمح بإجراء حسابات دقيقة لخداع طبقات محددة، وغالبًا ما يختبر حدود التحيز الخوارزمي.
  • هجمات الصندوق الأسود: لا يمتلك المهاجم أي معرفة داخلية ويتفاعل مع النموذج فقط من خلال المدخلات والمخرجات، على غرار محرك استدلالي قياسي الاستدلال القياسي. تعتمد هذه الهجمات غالبًا على قابلية النقل، حيث من المحتمل أن يخدع المثال الذي يخدع نموذجًا ما نموذجًا آخر.

التطبيقات والمخاطر في العالم الحقيقي

تمتد الآثار المترتبة على الهجمات العدائية إلى ما هو أبعد من البحوث الأكاديمية، مما يشكل مخاطر حقيقية على البنية التحتية الحرجة للسلامة.

  1. القيادة الذاتية: في مجال الذكاء الاصطناعي في السيارات، تعتمد أنظمة الإدراك البصري تعتمد على اكتشاف الأجسام لتحديد إشارات المرور. وقد أثبت الباحثون أن وضع ملصقات محددة على إشارة توقف يمكن أن يتسبب في أن مركبة ذاتية القيادة إلى تصنيفها بشكل خاطئ على أنها علامة علامة الحد الأقصى للسرعة. يسلط هذا النوع من الهجمات العدائية المادية الضوء على الحاجة إلى المتانة الشديدة في أنظمة الرؤية الحاسوبية المستخدمة على الطرق العامة.
  2. الأمن البيومتري: تستخدم العديد من المرافق والأجهزة الآمنة التعرف على الوجه للتحكم في الوصول. يمكن تصميم النظارات الخادعة أو الأنماط المطبوعة لتعطيل عملية عملية استخراج الميزات، مما يسمح لمستخدم غير مصرح له بتجاوز الأمان أو انتحال شخصية شخص معين.

الدفاعات والمتانة

يعد الدفاع ضد هذه التهديدات عنصراً أساسياً من عناصر سلامة الذكاء الاصطناعي. توفر أطر عمل مثل MITRE ATLAS توفر قاعدة معرفية لتكتيكات الخصوم لمساعدة المطورين على تقوية أنظمتهم. تتمثل إحدى استراتيجيات الدفاع الأساسية في التدريب العدائي، حيث يتم إنشاء أمثلة عدائية وإضافتها إلى بيانات التدريب. هذا يجبر النموذج على تعلم تجاهل الاضطرابات الصغيرة.

هناك طريقة أخرى فعالة وهي زيادة البيانات. من خلال إدخال الضوضاء أو الاقتصاص المميز أو تأثيرات الفسيفساء أثناء التدريب، يعمم النموذج بشكل أفضل ويصبح أقل أقل هشاشة. يؤكد يؤكد إطار عمل NIST لإدارة مخاطر الذكاء الاصطناعي على هذه إجراءات الاختبار والتحقق من الصحة للتخفيف من المخاطر الأمنية.

التمييز عن المفاهيم ذات الصلة

من المهم التمييز بين الهجمات العدائية والمصطلحات المماثلة في المشهد الأمني:

  • الهجمات العدائية مقابل تسميم البيانات: بينما تتلاعب هجمات الخصوم بالمدخلات في وقت الاستدلال لخداع النموذج المدرّب, يتضمّن تسميم البيانات إفساد مجموعة البيانات قبل بدء التدريب، مما يضر بسلامة النموذج الأساسية.
  • الهجمات العدائية مقابل الحقن الموجه: تستهدف هجمات الخصوم عادةً البيانات الرقمية أو المرئية في النماذج التمييزية. في المقابل فإن الحقن الفوري خاص ب نماذج اللغة الكبيرة (LLMs)، حيث تتجاوز التعليمات النصية الخبيثة برمجة الذكاء الاصطناعي.

تعزيز متانة النموذج

يوضّح مقتطف Python التالي كيفية تطبيق الزيادة الثقيلة أثناء التدريب باستخدام Ultralytics YOLO11. في حين أن هذا لا يولد هجمات, فإن استخدام تقنيات مثل MixUp و Mosaic يحسن بشكل كبير من متانة النموذج ضد تغيرات المدخلات و والضوضاء العدائية المحتملة.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن