محوّل (Transformer)
اكتشف كيف تُحدث Architectures Transformer ثورة في الذكاء الاصطناعي، مما يدعم اختراقات في البرمجة اللغوية العصبية (NLP)، والرؤية الحاسوبية، ومهام تعلم الآلة المتقدمة.
المحول (Transformer) هو معمارية شبكة عصبونية ثورية أصبحت حجر الزاوية في الذكاء الاصطناعي (AI) الحديث، وخاصة في معالجة اللغات الطبيعية (NLP)، ومؤخرًا في رؤية الحاسوب (CV). تم تقديمها من قبل باحثي Google في ورقة عام 2017 "Attention Is All You Need"، ويكمن الابتكار الرئيسي فيها في آلية الانتباه الذاتي (self-attention mechanism)، والتي تسمح للنموذج بتقدير أهمية الكلمات أو أجزاء مختلفة من تسلسل الإدخال. وهذا يمكنه من التقاط التبعيات طويلة المدى والعلاقات السياقية بشكل أكثر فعالية من المعماريات السابقة. يسمح التصميم أيضًا بالتوازي الهائل، مما يجعل من الممكن تدريب نماذج أكبر بكثير على مجموعات بيانات ضخمة، مما يؤدي إلى ظهور نماذج لغوية كبيرة (LLMs).
كيف تعمل المحولات (Transformers)؟
على عكس النماذج التسلسلية مثل الشبكات العصبية المتكررة (RNNs)، تعالج المحولات تسلسلات البيانات بأكملها مرة واحدة. الفكرة الأساسية هي التعامل مع جميع العناصر بالتوازي، مما يسرع بشكل كبير التدريب على الأجهزة الحديثة مثل وحدات معالجة الرسومات (GPUs).
لفهم ترتيب التسلسل بدون تكرار، تستخدم المحولات تقنية تسمى الترميز الموضعي، والذي يضيف معلومات حول موضع كل عنصر (على سبيل المثال، كلمة في جملة) إلى تضمينه. ثم تعالج طبقات الانتباه الذاتي هذه التضمينات، مما يسمح لكل عنصر "بالنظر إلى" كل عنصر آخر في التسلسل وتحديد أي منها هو الأكثر صلة بفهم معناه. يعد الوعي بالسياق العالمي ميزة رئيسية للمهام المعقدة. توفر أطر العمل مثل PyTorch و TensorFlow دعمًا واسعًا لبناء نماذج تعتمد على المحولات.
تطبيقات المحولات (Transformers)
يمتد تأثير المحولات عبر العديد من المجالات، مما يدفع التقدم في كل من مهام اللغة والرؤية.
- ترجمة اللغة وتوليدها: تستخدم خدمات مثل ترجمة Google نماذج تعتمد على Transformer لـ الترجمة الآلية عالية الجودة. يمكن للنموذج مراعاة الجملة المصدر بأكملها لإنتاج ترجمة أكثر سلاسة ودقة. وبالمثل، تتفوق نماذج مثل GPT-4 في توليد النصوص من خلال فهم السياق لإنشاء فقرات متماسكة أو كتابة مقالات أو تشغيل برامج الدردشة الآلية المتقدمة.
- الرؤية الحاسوبية: يقوم محول الرؤية (ViT) بتكييف البنية لمهام قائمة على الصور. فهو يعامل الصورة على أنها سلسلة من الرقع ويستخدم الانتباه الذاتي لنمذجة العلاقات بينها. يستخدم هذا النهج في نماذج مثل RT-DETR لاكتشاف الكائنات، حيث يمكن أن يساعد فهم السياق العام للمشهد في تحديد الكائنات بدقة أكبر، خاصة في البيئات المزدحمة. يمكنك الاطلاع على مقارنة بين RT-DETR و YOLOv8 لفهم الاختلافات المعمارية بينهما.
المحولات مقابل البنى الأخرى
من المفيد التمييز بين المحولات (Transformers) وهياكل الشبكات العصبية الشائعة الأخرى:
- Transformers مقابل RNNs: تعالج شبكات RNN البيانات بالتسلسل، مما يجعلها بطيئة بطبيعتها وعرضة لـ مشكلة تلاشي التدرج (vanishing gradient problem)، مما يتسبب في نسيانها للمعلومات السابقة في التسلسلات الطويلة. تتغلب Transformers على ذلك من خلال المعالجة المتوازية والانتباه الذاتي، والتقاط التبعيات طويلة المدى بشكل أكثر فعالية.
- Transformers مقابل CNNs: الشبكات العصبية التفافية (CNNs) فعالة للغاية لمهام الرؤية، باستخدام مرشحات التفافية لتحديد الأنماط المحلية في البيانات الشبيهة بالشبكة مثل وحدات البكسل. إنها الأساس لنماذج مثل عائلة Ultralytics YOLO. تلتقط Transformers، في المقابل، العلاقات العالمية ولكنها غالبًا ما تتطلب المزيد من البيانات و موارد الحوسبة (compute resources). تهدف النماذج الهجينة، التي تجمع بين العمود الفقري (backbone) لشبكة CNN وطبقات Transformer، إلى الحصول على أفضل ما في العالمين.
متغيرات المحولات الفعالة
تنمو التكلفة الحسابية للاهتمام الذاتي الكامل للمحول الأصلي بشكل تربيعي مع طول التسلسل، مما يجعله تحديًا للتسلسلات الطويلة جدًا. وقد أدى ذلك إلى تطوير متغيرات أكثر كفاءة.
- Longformer: يستخدم آلية انتباه النافذة المنزلقة (sliding window attention mechanism) جنبًا إلى جنب مع الانتباه العام على رموز محددة لتقليل التعقيد الحسابي.
- Reformer: يستخدم تقنيات مثل التجزئة الحساسة للموقع لتقريب الانتباه الكامل، مما يجعله أكثر كفاءة في استخدام الذاكرة.
- Transformer-XL: يقدم آلية تكرار تسمح للنموذج بتعلم التبعيات التي تتجاوز طولًا ثابتًا، وهو أمر مفيد بشكل خاص لنمذجة اللغة ذات الانحدار التلقائي.
تستمر هذه التطورات في توسيع نطاق تطبيق المحولات على مشاكل جديدة. تعمل الأدوات والمنصات مثل Hugging Face و Ultralytics HUB على تسهيل وصول المطورين إلى هذه النماذج القوية ونشرها.