Masked Autoencoders (MAE)
استكشف كيف تُحدث المُشفرات التلقائية المقنعة (MAE) ثورة في التعلم الذاتي الإشراف. تعلم كيف يحسن إعادة بناء MAE من أداء وكفاءة Ultralytics YOLO26.
تمثل المشفرات التلقائية المقنعة (MAE) نهجاً عالي الكفاءة وقابل للتوسع في التعلم ذاتي الإشراف ضمن المجال الأوسع لـ رؤية الحاسوب. وباعتبارها طريقة طُرحت لتدريب الشبكات العصبية ذات المعلمات الكثيفة دون الحاجة إلى مجموعات بيانات موسومة بشكل مكثف، تعمل MAE من خلال إخفاء جزء كبير وعشوائي من صورة الإدخال عمداً وتدريب النموذج على إعادة بناء وحدات البكسل المفقودة. ومن خلال التنبؤ بنجاح بالمعلومات البصرية المخفية، تتعلم الشبكة بشكل متأصل فهماً دلالياً وعميقاً للأشكال، والقوام، والعلاقات المكانية.
هذه التقنية مستوحاة بشكل كبير من نجاح نمذجة اللغة المقنعة في الأنظمة القائمة على النصوص، ولكن تم تكييفها لتناسب الطبيعة عالية الأبعاد لبيانات الصور. تعتمد البنية على إطار عمل Transformer واسع الانتشار، باستخدام بنية مشفر-فك تشفير غير متماثلة.
Link to this sectionكيف تعمل المشفرات التلقائية المقنعة#
يكمن الابتكار الأساسي لـ MAE في كفاءة المعالجة. أثناء التدريب، يتم تقسيم صورة الإدخال إلى شبكة من الرقع (patches). يتم إخفاء نسبة كبيرة من هذه الرقع عشوائياً (غالباً ما تصل إلى 75%) وتجاهلها. يقوم المشفر، الذي عادة ما يكون Vision Transformer (ViT)، بمعالجة الرقع المرئية وغير المقنعة فقط. ولأن المشفر يتخطى الأجزاء المقنعة تماماً، فإنه يتطلب قدراً أقل بكثير من الحوسبة والذاكرة، مما يجعل عملية التدريب سريعة بشكل ملحوظ.
بعد أن يولد المشفر تمثيلات كامنة للرقع المرئية، يتولى فك تشفير خفيف الوزن المهمة. يتلقى فك التشفير الرقع المرئية المشفرة جنباً إلى جنب مع "رموز القناع" (عناصر نائبة للبيانات المفقودة) ويحاول إعادة بناء الصورة الأصلية. ونظراً لأن فك التشفير يُستخدم فقط خلال مرحلة ما قبل التدريب هذه، فيمكن إبقاؤه صغيراً جداً، مما يقلل من العبء الحسابي. بمجرد اكتمال ما قبل التدريب، يتم التخلص من فك التشفير، ويتم الاحتفاظ بالمشفر القوي للتطبيقات اللاحقة.
Link to this sectionالتمييز بين المصطلحات ذات الصلة#
لفهم MAE بشكل كامل، من المفيد معرفة كيف تختلف عن مفاهيم التعلم العميق القديمة أو الأوسع:
- مشفر تلقائي: يقوم المشفر التلقائي التقليدي بضغط المدخلات بالكامل في مساحة كامنة أصغر ثم يعيد بناءها لتعلم ترميزات فعالة للبيانات. ومع ذلك، تجبر MAE الشبكة على التنبؤ بالبيانات المفقودة بدلاً من مجرد ضغط وفك ضغط المدخلات بالكامل.
- التعلم ذاتي الإشراف: هذا هو نموذج التدريب الشامل حيث يتعلم النموذج من البيانات نفسها دون تسميات معتمدة من قبل البشر. MAE هو تطبيق بنيوي محدد لهذا المفهوم.
- نموذج أساسي: غالباً ما تُستخدم MAE لتدريب نماذج الأساس البصرية مسبقاً، والتي يتم ضبطها دقيقاً بعد ذلك لمهام متخصصة.
Link to this sectionتطبيقات العالم الحقيقي#
نظراً لأن MAE تتعلم تمثيلات قوية للغاية للبيانات البصرية، فهي نقاط انطلاق مثالية لأنظمة الذكاء الاصطناعي المعقدة في العالم الحقيقي.
- ما قبل التدريب للكشف المتقدم عن الكائنات: يمكن لقدرات استخراج الميزات الغنية التي تم تعلمها من خلال ما قبل التدريب باستخدام MAE أن تعزز بشكل كبير أداء أنظمة الكشف عن الكائنات اللاحقة. على سبيل المثال، يمكن استخدام الميزات التي تم تعلمها من خلال MAE عند تدريب نماذج مثل Ultralytics YOLO26 على مجموعات بيانات مخصصة ومتخصصة حيث تكون البيانات الموسومة نادرة.
- تحليل الصور الطبية: في مجالات مثل الأشعة، يعد جمع مجموعات بيانات ضخمة من مسوحات التصوير بالرنين المغناطيسي (MRI) أو الأشعة المقطعية (CT) الموسومة مكلفاً ومقيداً بقوانين الخصوصية. يستخدم الباحثون MAE لتدريب النماذج مسبقاً على مجموعات كبيرة من الصور الطبية غير الموسومة، والتي تم نشرها في أدبيات أكاديمية حديثة على arXiv، قبل ضبطها دقيقاً للكشف عن الأورام أو الشذوذ باستخدام القليل جداً من الأمثلة الموسومة.
Link to this sectionإدارة البيانات والنشر#
بمجرد تدريب العمود الفقري مسبقاً باستخدام نهج MAE، تتضمن الخطوة التالية الضبط الدقيق ونشر النموذج لمهام محددة مثل تصنيف الصور أو تجزئة الصور. تجعل الأنظمة البيئية السحابية الحديثة هذا الانتقال سلساً. على سبيل المثال، يمكن للفرق الاستفادة من منصة Ultralytics لوسم مجموعات البيانات الخاصة بمهام معينة بسهولة، وتنظيم التدريب السحابي، ونشر النماذج الناتجة الجاهزة للإنتاج إلى أجهزة الحافة أو الخوادم. وهذا يلغي الكثير من أعمال البنية التحتية الروتينية المرتبطة عادةً بـ عمليات تعلم الآلة (MLOps).
Link to this sectionمثال برمجي: محاكاة إخفاء الرقع#
بينما يتطلب تدريب MAE كامل بنية Transformer متكاملة، يمكن تصور المفهوم الأساسي لإخفاء الرقع بسهولة باستخدام عمليات مصفوفات PyTorch. يوضح هذا المقتطف البسيط كيف يمكن للمرء اختيار الرقع المرئية عشوائياً من مصفوفة إدخال.
import torch
def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
"""Generates a random mask to simulate MAE patch dropping."""
# Calculate how many patches to keep visible
num_keep = int(num_patches * (1 - mask_ratio))
# Generate random noise to determine patch shuffling
noise = torch.rand(batch_size, num_patches)
# Sort noise to get random indices
ids_shuffle = torch.argsort(noise, dim=1)
# Select the indices of the patches that remain visible
ids_keep = ids_shuffle[:, :num_keep]
return ids_keep
# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")بالنسبة للمطورين الذين يتطلعون إلى دمج قدرات بصرية قوية ومُدربة مسبقاً في سير عملهم دون كتابة بنيات من الصفر، فإن استكشاف توثيق Ultralytics الشامل يوفر نقاط انطلاق ممتازة لتطبيق نماذج الرؤية المتطورة على تحدياتك الفريدة. علاوة على ذلك، توفر أطر العمل الرئيسية مثل TensorFlow أيضاً أنظمة بيئية قوية لتنفيذ أبحاث تعلم الآلة المتطورة في بيئات إنتاج قابلة للتوسع.






