مسرد المصطلحات

المحول

اكتشف كيف تُحدِث بنيات Transformer ثورة في الذكاء الاصطناعي، وتحقق اختراقات في مجال البرمجة اللغوية العصبية والرؤية الحاسوبية ومهام التعلّم الآلي المتقدمة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثّل المحولات بنية محورية للشبكات العصبية التي طورت بشكل كبير مجالات الذكاء الاصطناعي والتعلم الآلي، خاصة في معالجة اللغات الطبيعية وبشكل متزايد في مجال الرؤية الحاسوبية. تم تقديمها في ورقة بحثية مؤثرةبعنوان "الانتباه هو كل ما تحتاجه"، وهي تعالج البيانات المتسلسلة، مثل النصوص أو السلاسل الزمنية، باستخدام آلية تسمى الانتباه الذاتي. يتيح ذلك للنموذج أن يوازن ديناميكيًا بين أهمية الأجزاء المختلفة من المدخلات، متغلبًا بذلك على القيود الرئيسية للبنى القديمة مثل الشبكات العصبية المتكررة (RNNs).

كيف تعمل المحولات

الابتكار الأساسي في المحولات هو آلية الانتباه الذاتي. على عكس شبكات RNNs، التي تعالج المدخلات بالتتابع (عنصر تلو الآخر) ويمكن أن تعاني مع التسلسلات الطويلة بسبب مشاكل مثل تلاشي التدرجات، يمكن أن تأخذ المحولات جميع أجزاء تسلسل المدخلات في وقت واحد. تعمل هذه القدرة على المعالجة المتوازية على تسريع التدريب بشكل كبير على الأجهزة الحديثة مثل وحدات معالجة الرسومات من شركات مثل NVIDIA.

بينما تركز الشبكات العصبية التلافيفية النموذجية (CNNs) على السمات المحلية من خلال مرشحات ذات حجم ثابت تقوم بإجراء التلافيف، فإن آلية الانتباه تسمح للمتحولات بالتقاط التبعيات بعيدة المدى والعلاقات السياقية عبر المدخلات بأكملها. هذه القدرة على فهم السياق العالمي أمر بالغ الأهمية للمهام التي تنطوي على علاقات معقدة، سواء في النصوص أو بقع الصور المستخدمة في محولات الرؤية (ViTs).

الأهمية والأثر

أصبحت المحولات أساسًا للعديد من نماذج الذكاء الاصطناعي الحديثة نظرًا لفعاليتها في التقاط السياق والتعامل مع التسلسلات الطويلة. وقد مكّنت طبيعتها القابلة للتوازي من تدريب نماذج ضخمة بمليارات المعلمات، مثل GPT-3 و GPT-4 التي طورتها OpenAI، مما أدى إلى تحقيق اختراقات في الذكاء الاصطناعي التوليدي. وقد جعلت قابلية التوسع والأداء هذه من المحولات مركزية للتقدم في مختلف مهام الذكاء الاصطناعي، مما أدى إلى دفع عجلة الابتكار في مجال البحث والصناعة. العديد من نماذج المحولات الشائعة، مثل BERT، متاحة بسهولة من خلال منصات مثل Hugging Face ويتم تنفيذها باستخدام أطر عمل مثل PyTorch و TensorFlowوغالبًا ما يتم دمجها في منصات MLOPS مثل Ultralytics HUB.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

المحولات متعددة الاستخدامات للغاية وتشغل العديد من تطبيقات الذكاء الاصطناعي:

المحول مقابل البنى الأخرى

من المفيد تمييز المحولات عن غيرها من بنيات الشبكات العصبية الشائعة الأخرى:

  • المحولات مقابل شبكات RNNs: تقوم شبكات RNNs بمعالجة البيانات بالتتابع، مما يجعلها مناسبة لبيانات السلاسل الزمنية ولكنها عرضة لنسيان المعلومات السابقة في التسلسلات الطويلة(مشكلة تلاشي التدرج). تقوم المحولات بمعالجة التسلسلات بالتوازي باستخدام الانتباه الذاتي، مما يجعلها تلتقط التبعيات بعيدة المدى بشكل أكثر فعالية وتتدرب بشكل أسرع على الأجهزة المتوازية(وحدات معالجة الرسومات).
  • المحولات مقابل الـ CNNs تتفوق الشبكات الشبكية المتكاملة في تحديد الأنماط المحلية في البيانات الشبيهة بالشبكة (على سبيل المثال، وحدات البكسل في الصورة) باستخدام مرشحات التلافيف. وهي ذات كفاءة عالية في العديد من مهام الرؤية مثل تلك التي تعالجها Ultralytics YOLO النماذج. تقسّم المحولات، وخاصةً نماذج الشبكات الافتراضية الافتراضية، الصور إلى رقع وتستخدم الانتباه الذاتي لنمذجة العلاقات بينها، مما قد يؤدي إلى التقاط السياق العام بشكل أفضل، ولكن غالبًا ما يتطلب المزيد من البيانات والموارد الحاسوبية، خاصةً أثناء تدريب النموذج. تهدف البنى الهجينة، التي تجمع بين ميزات سي إن إن وطبقات المحولات، إلى الاستفادة من نقاط القوة في كليهما، كما هو واضح في بعض متغيراتRT-DETR . يعتمد الاختيار غالبًا على المهمة المحددة وحجم مجموعة البيانات وموارد الحوسبة المتاحة.
قراءة الكل