اكتشف كيف أحدثت شبكات التشفير الذاتي المقنعة (MAE) ثورة في التعلم الذاتي الإشرافي. تعرف على كيفية تحسين عملية إعادة البناء في شبكات MAE لأداء وكفاءة Ultralytics .
تمثل شبكات التشفير الذاتي المقنعة (MAE) نهجًا عالي الكفاءة وقابل للتوسع في التعلم الذاتي الإشرافي ضمن المجال الأوسع للرؤية الحاسوبية. تم تقديمها كطريقة لتدريب الشبكات العصبية ذات المعلمات الكثيرة دون الحاجة إلى مجموعات بيانات مصنفة بشكل مكثف، وتعمل MAE عن طريق إخفاء جزء كبير وعشوائي من الصورة المدخلة عن قصد وتدريب النموذج على إعادة بناء البيكسلات المفقودة. من خلال التنبؤ الناجح بالمعلومات البصرية المخفية، تتعلم الشبكة بطبيعتها فهمًا عميقًا ودلاليًا للأشكال والأنسجة والعلاقات المكانية.
تستمد هذه التقنية إلهامها بشكل كبير من نجاح نمذجة اللغة المقنعة في الأنظمة النصية، ولكنها تم تكييفها لتتناسب مع الطبيعة عالية الأبعاد لبيانات الصور. وتعتمد البنية على إطار عمل «ترانسفورمر» الشهير، حيث تستخدم بنية غير متماثلة للمشفّر والمفكك.
يكمن الابتكار الأساسي في نموذج MAE في كفاءة معالجته. أثناء التدريب، تُقسَّم الصورة المدخلة إلى شبكة من المربعات. يتم إخفاء نسبة عالية من هذه المربعات (غالبًا ما تصل إلى 75٪) بشكل عشوائي والتخلص منها. المشفّر، الذي يكون عادةً محول الرؤية (ViT)، يعالج فقط المربعات المرئية غير المخفية. نظرًا لأن المشفّر يتخطى الأجزاء المخفية تمامًا، فإنه يتطلب قدرًا أقل بكثير من الحوسبة والذاكرة، مما يجعل عملية التدريب سريعة بشكل ملحوظ.
بعد أن يقوم المُشفر بإنشاء تمثيلات كامنة للرقع المرئية، يتولى المُفكك الخفيف الوزن المهمة. يتلقى المُفكك الرقع المرئية المشفرة إلى جانب "رموز القناع" (التي تمثل العناصر النائبة للبيانات المفقودة) ويحاول إعادة بناء الصورة الأصلية. ونظرًا لأن المُفكك لا يُستخدم إلا خلال مرحلة التدريب المسبق هذه، فيمكن الحفاظ على حجمه صغيرًا جدًّا، مما يقلل من العبء الحسابي بشكل أكبر. بمجرد اكتمال التدريب المسبق، يتم التخلص من وحدة فك التشفير، ويتم الاحتفاظ بوحدة التشفير القوية للتطبيقات اللاحقة.
لفهم الأخطاء المتوسطة المعيارية (MAEs) فهماً كاملاً، من المفيد معرفة كيف تختلف عن مفاهيم التعلم العميق الأقدم أو الأوسع نطاقاً:
نظرًا لأن نماذج MAE تتعلم تمثيلات قوية للغاية للبيانات المرئية، فإنها تُعدّ نقاط انطلاق مثالية لأنظمة الذكاء الاصطناعي المعقدة في العالم الواقعي.
بمجرد الانتهاء من التدريب المسبق لنموذج "العمود الفقري" باستخدام نهج MAE، تتمثل الخطوة التالية في ضبط النموذج ونشره من أجل مهام محددة مثل تصنيف الصور أو تجزئة الصور. تجعل النظم البيئية السحابية الحديثة هذا الانتقال سلسًا. على سبيل المثال، يمكن للفرق الاستفادة من Ultralytics لتعليق مجموعات البيانات الخاصة بالمهام بسهولة، وتنسيق التدريب السحابي، ونشر النماذج الناتجة الجاهزة للإنتاج على الأجهزة الطرفية أو الخوادم. وهذا يلغي الكثير من أعمال البنية التحتية النمطية التي ترتبط عادةً بعمليات التعلم الآلي (MLOps).
في حين أن تدريب نموذج MAE كامل يتطلب بنية محول كاملة، فإن المفهوم الأساسي لإخفاء البقع يمكن تصوره بسهولة باستخدام tensor PyTorch . ويوضح هذا المقتطف البسيط كيف يمكن اختيار بقع مرئية عشوائياً من tensor الإدخال.
import torch
def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
"""Generates a random mask to simulate MAE patch dropping."""
# Calculate how many patches to keep visible
num_keep = int(num_patches * (1 - mask_ratio))
# Generate random noise to determine patch shuffling
noise = torch.rand(batch_size, num_patches)
# Sort noise to get random indices
ids_shuffle = torch.argsort(noise, dim=1)
# Select the indices of the patches that remain visible
ids_keep = ids_shuffle[:, :num_keep]
return ids_keep
# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")
بالنسبة للمطورين الذين يسعون إلى دمج قدرات بصرية قوية ومدربة مسبقًا في سير عملهم دون الحاجة إلى تصميم بنى من الصفر، فإن استكشاف Ultralytics يوفر نقاط انطلاق ممتازة لتطبيق أحدث نماذج الرؤية على التحديات الفريدة التي تواجهكم. علاوة على ذلك، فإن الأطر الرئيسية مثل TensorFlow أيضًا بيئات قوية لتنفيذ أحدث أبحاث التعلم الآلي في بيئات إنتاج قابلة للتوسع .