Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

المشفرات الذاتية المقنعة (MAE)

اكتشف كيف أحدثت شبكات التشفير الذاتي المقنعة (MAE) ثورة في التعلم الذاتي الإشرافي. تعرف على كيفية تحسين عملية إعادة البناء في شبكات MAE لأداء وكفاءة Ultralytics .

تمثل شبكات التشفير الذاتي المقنعة (MAE) نهجًا عالي الكفاءة وقابل للتوسع في التعلم الذاتي الإشرافي ضمن المجال الأوسع للرؤية الحاسوبية. تم تقديمها كطريقة لتدريب الشبكات العصبية ذات المعلمات الكثيرة دون الحاجة إلى مجموعات بيانات مصنفة بشكل مكثف، وتعمل MAE عن طريق إخفاء جزء كبير وعشوائي من الصورة المدخلة عن قصد وتدريب النموذج على إعادة بناء البيكسلات المفقودة. من خلال التنبؤ الناجح بالمعلومات البصرية المخفية، تتعلم الشبكة بطبيعتها فهمًا عميقًا ودلاليًا للأشكال والأنسجة والعلاقات المكانية.

تستمد هذه التقنية إلهامها بشكل كبير من نجاح نمذجة اللغة المقنعة في الأنظمة النصية، ولكنها تم تكييفها لتتناسب مع الطبيعة عالية الأبعاد لبيانات الصور. وتعتمد البنية على إطار عمل «ترانسفورمر» الشهير، حيث تستخدم بنية غير متماثلة للمشفّر والمفكك.

كيف تعمل شبكات الترميز الذاتي المقنعة

يكمن الابتكار الأساسي في نموذج MAE في كفاءة معالجته. أثناء التدريب، تُقسَّم الصورة المدخلة إلى شبكة من المربعات. يتم إخفاء نسبة عالية من هذه المربعات (غالبًا ما تصل إلى 75٪) بشكل عشوائي والتخلص منها. المشفّر، الذي يكون عادةً محول الرؤية (ViT)، يعالج فقط المربعات المرئية غير المخفية. نظرًا لأن المشفّر يتخطى الأجزاء المخفية تمامًا، فإنه يتطلب قدرًا أقل بكثير من الحوسبة والذاكرة، مما يجعل عملية التدريب سريعة بشكل ملحوظ.

بعد أن يقوم المُشفر بإنشاء تمثيلات كامنة للرقع المرئية، يتولى المُفكك الخفيف الوزن المهمة. يتلقى المُفكك الرقع المرئية المشفرة إلى جانب "رموز القناع" (التي تمثل العناصر النائبة للبيانات المفقودة) ويحاول إعادة بناء الصورة الأصلية. ونظرًا لأن المُفكك لا يُستخدم إلا خلال مرحلة التدريب المسبق هذه، فيمكن الحفاظ على حجمه صغيرًا جدًّا، مما يقلل من العبء الحسابي بشكل أكبر. بمجرد اكتمال التدريب المسبق، يتم التخلص من وحدة فك التشفير، ويتم الاحتفاظ بوحدة التشفير القوية للتطبيقات اللاحقة.

التمييز بين المصطلحات ذات الصلة

لفهم الأخطاء المتوسطة المعيارية (MAEs) فهماً كاملاً، من المفيد معرفة كيف تختلف عن مفاهيم التعلم العميق الأقدم أو الأوسع نطاقاً:

  • المشفّر الذاتي: يقوم المشفّر الذاتي التقليدي بضغط المدخلات بأكملها إلى فضاء كامن أصغر حجماً، ثم يعيد بنائها لتعلم طرق فعالة لترميز البيانات. أما معيار الخطأ المتوسط المربع (MAE)، فيجبر الشبكة على توقع البيانات المفقودة بدلاً من الاكتفاء بضغط وفك ضغط المدخلات بأكملها.
  • التعلم الذاتي الإشرافي: هذا هو النموذج التدريبي الشامل الذي يتعلم فيه النموذج من البيانات نفسها دون الحاجة إلى تصنيفات تم توضيحها بواسطة الإنسان. MAE هو تطبيق معماري محدد لهذا المفهوم.
  • النموذج الأساسي: غالبًا ما تُستخدم شبكات MAE في التدريب المسبق للنماذج الأساسية البصرية، التي يتم بعد ذلك ضبطها بدقة لأداء مهام متخصصة.

تطبيقات واقعية

نظرًا لأن نماذج MAE تتعلم تمثيلات قوية للغاية للبيانات المرئية، فإنها تُعدّ نقاط انطلاق مثالية لأنظمة الذكاء الاصطناعي المعقدة في العالم الواقعي.

  • التدريب المسبق لاكتشاف الكائنات المتقدم: إن قدرات استخراج السمات الغنية التي يتم اكتسابها من خلال التدريب المسبق باستخدام MAE يمكن أن تعزز بشكل كبير أداء أنظمة اكتشاف الكائنات اللاحقة. على سبيل المثال، يمكن الاستفادة من السمات التي تم اكتسابها عبر MAE عند تدريب نماذج مثل Ultralytics على مجموعات بيانات مخصصة ومتخصصة حيث تتوافر البيانات المصنفة بشكل محدود.
  • تحليل الصور الطبية: في مجالات مثل الأشعة، يعد جمع مجموعات ضخمة من البيانات المصحوبة بتعليقات توضيحية من صور الرنين المغناطيسي أو الأشعة المقطعية عملية مكلفة وتخضع لقيود قوانين الخصوصية. يستخدم الباحثون نماذج التعلم الآلي (MAEs) لتدريب النماذج مسبقًا على مجموعات كبيرة من الصور الطبية غير المصنفة، والتي نُشرت في الأبحاث الأكاديمية الحديثة على منصة arXiv، قبل ضبطها بدقة detect أو الشذوذات باستخدام عدد قليل جدًا من الأمثلة المصنفة.

إدارة البيانات والنشر

بمجرد الانتهاء من التدريب المسبق لنموذج "العمود الفقري" باستخدام نهج MAE، تتمثل الخطوة التالية في ضبط النموذج ونشره من أجل مهام محددة مثل تصنيف الصور أو تجزئة الصور. تجعل النظم البيئية السحابية الحديثة هذا الانتقال سلسًا. على سبيل المثال، يمكن للفرق الاستفادة من Ultralytics لتعليق مجموعات البيانات الخاصة بالمهام بسهولة، وتنسيق التدريب السحابي، ونشر النماذج الناتجة الجاهزة للإنتاج على الأجهزة الطرفية أو الخوادم. وهذا يلغي الكثير من أعمال البنية التحتية النمطية التي ترتبط عادةً بعمليات التعلم الآلي (MLOps).

مثال على الكود: محاكاة إخفاء البقع

في حين أن تدريب نموذج MAE كامل يتطلب بنية محول كاملة، فإن المفهوم الأساسي لإخفاء البقع يمكن تصوره بسهولة باستخدام tensor PyTorch . ويوضح هذا المقتطف البسيط كيف يمكن اختيار بقع مرئية عشوائياً من tensor الإدخال.

import torch


def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
    """Generates a random mask to simulate MAE patch dropping."""
    # Calculate how many patches to keep visible
    num_keep = int(num_patches * (1 - mask_ratio))

    # Generate random noise to determine patch shuffling
    noise = torch.rand(batch_size, num_patches)

    # Sort noise to get random indices
    ids_shuffle = torch.argsort(noise, dim=1)

    # Select the indices of the patches that remain visible
    ids_keep = ids_shuffle[:, :num_keep]

    return ids_keep


# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")

بالنسبة للمطورين الذين يسعون إلى دمج قدرات بصرية قوية ومدربة مسبقًا في سير عملهم دون الحاجة إلى تصميم بنى من الصفر، فإن استكشاف Ultralytics يوفر نقاط انطلاق ممتازة لتطبيق أحدث نماذج الرؤية على التحديات الفريدة التي تواجهكم. علاوة على ذلك، فإن الأطر الرئيسية مثل TensorFlow أيضًا بيئات قوية لتنفيذ أحدث أبحاث التعلم الآلي في بيئات إنتاج قابلة للتوسع .

عزز قوتك مع Ultralytics YOLO

احصل على رؤية الذكاء الاصطناعي المتقدمة لمشاريعك. ابحث عن الترخيص المناسب لأهدافك اليوم.

اكتشف خيارات الترخيص