اكتشف تقنية "إلغاء تعلم" الآلة لإزالة بيانات التدريب الحساسة بشكل انتقائي. تعرف على كيفية ضمان الامتثال للائحة العامة لحماية البيانات (GDPR) وخصوصية البيانات باستخدام Ultralytics .
يُعد «نسيان الآلة» مجالًا فرعيًا ناشئًا في التعلم الآلي يركز على إزالة تأثير مجموعة فرعية محددة من بيانات التدريب من النموذج المدرب. ونظرًا لأن النماذج تستوعب كميات هائلة من المعلومات، فقد أصبحت القدرة على «نسيان» البيانات بشكل انتقائي أمرًا بالغ الأهمية. تتيح هذه العملية للمطورين استخراج نقاط بيانات محددة دون الحاجة إلى إعادة تدريب البنية بأكملها من الصفر، مما يوفر وقتًا كبيرًا و تكاليف حوسبة إضافية.
الدافع الرئيسي وراء هذه التكنولوجيا هو خصوصية البيانات. مع ظهور اللوائحالصارمة لحماية البيانات والتوجيهات مثل «الحق في النسيان» المنصوص عليه في اللائحة العامة لحماية البيانات (GDPR)، أصبح للمستخدمين الحق القانوني في طلب حذف معلوماتهم الشخصية. ويوفر «نسيان الآلة» وسيلة آمنة لمحو هذه البيانات من نماذج التعلم العميق، مما يضمن الامتثال للقوانين مع الحفاظ على فائدة النموذج بشكل عام.
تربط آليات التدرج التنازلي التقليدية بيانات التدريب بشكل عميق بأوزان الشبكة. ولهذا السبب، فإن مجرد حذف الصورة الأصلية أو ملف النص من قاعدة البيانات لا يؤدي إلى إزالة الأنماط المكتسبة من النموذج نفسه. تنقسم تقنيات "نسيان الآلة " عمومًا إلى فئتين : "النسيان الدقيق" و"النسيان التقريبي". يضمن النسيان الدقيق أن النموذج النهائي مطابق إحصائيًا لنموذج تم تدريبه بالكامل بدون البيانات المنسية، وغالبًا ما يتم تحقيق ذلك من خلال تقسيم ذكي لمجموعة البيانات . أما النسيان التقريبي، الذي يُناقش كثيرًا في الدراسات الحديثة حول خوارزميات النسيان الفعالة، فيستخدم تدخلات رياضية لتعديل معلمات النموذج وإخفاء تأثير البيانات المستهدفة بأثر رجعي.
من المهم التمييز بين «نسيان الآلة» و «التعلم المستمر». ففي حين يهدف التعلم المستمر إلى إضافة المعرفة الجديدة بشكل متتابع دون التعرض لـ«النسيان الكارثي»، فإن «نسيان الآلة» هو عملية متعمدة وموجهة لإزالة المعرفة. كما تستخدم المؤسسات التي تركز على الإنصاف الخوارزمي «نسيان الآلة» لتصحيح التحيز في الذكاء الاصطناعي من خلال حذف البيانات الضارة أو المشوهة بعد انتهاء التدريب.
انتقلت خوارزميات "إلغاء التعلم" بسرعة من البحوث النظرية في مجال سلامة الذكاء الاصطناعي إلى التطبيق العملي في مختلف القطاعات.
على الرغم من أن واجهات برمجة التطبيقات (API) الخاصة بـ«نسيان التعلم» المباشر في خطوة واحدة لا تزال مجالًا نشطًا للبحث ضمن تحديات «نسيان التعلم» الآلي، فإن الممارسين غالبًا ما يحققون خط أساس دقيقًا لـ«نسيان التعلم» من خلال تنظيم مجموعة بيانات مُنقّاة وبدء دورة إعادة تدريب سريعة. عند استخدام Ultralytics لإدارة البيانات القائمة على السحابة، يمكنك بسهولة إنشاء إصدارات لمجموعة البيانات لاستبعاد البيانات التي تم إلغاؤها.
فيما يلي Python موجز Python يوضح النهج الأساسي لـ"إلغاء التعلم" من خلال إعادة تدريب نموذج Ultralytics على مجموعة بيانات تم تنقيتها:
from ultralytics import YOLO
# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")
مع تزايد الطلب على تحسين النماذج و متانة الشبكات العصبية، أصبح «نسيان المعلومات» مطلبًا أساسيًا. وسواء كنت تدير مسارات معالجة معقدة لتصنيف الصور أو تنشر النماذج على الأجهزة الطرفية، فإن دمج آليات «نسيان المعلومات» بشكل مسؤول يضمن بقاء أنظمة الذكاء الاصطناعي الخاصة بك متوافقة مع المعايير، ومنصفة، وجديرة بالثقة.