Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

محوّل (Transformer)

اكتشف كيف تُحدث Architectures Transformer ثورة في الذكاء الاصطناعي، مما يدعم اختراقات في البرمجة اللغوية العصبية (NLP)، والرؤية الحاسوبية، ومهام تعلم الآلة المتقدمة.

المحول هو بنية شبكة عصبية رائدة تستخدم آلية انتباه ذاتي لمعالجة البيانات المدخلة بالتوازي، مما يحدث ثورة كبيرة في مجالات معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية (CV). تم تقديمها لأول مرة من قبل باحثو Google في الورقة البحثية الأساسية لعام 2017 "الانتباه هو كل ما تحتاج إليه"، يبتعد المحول عن المعالجة المتسلسلة التي تستخدمها البنى القديمة. وبدلاً من ذلك، فإنه يحلل تسلسلات كاملة من البيانات في وقت واحد, مما يسمح له بالتقاط التبعيات بعيدة المدى والعلاقات السياقية بكفاءة غير مسبوقة. هذه البنية تعمل هذه البنية كأساس للذكاء الاصطناعي الذكاء الاصطناعي التوليدي الحديث و نماذج اللغات الكبيرة (LLMs) مثل GPT-4.

البنية الأساسية والآلية الأساسية

إن السمة المميزة للمحول هي اعتماده على آلية الانتباه، وتحديداً الانتباه الذاتي. على عكس الشبكات العصبية المتكررة (RNNs), التي تعالج البيانات خطوة بخطوة (على سبيل المثال، كلمة بكلمة)، فإن المحولات تستوعب المدخلات بأكملها دفعة واحدة. لفهم ترتيب البيانات، فإنها تستخدم الترميزات الموضعية، والتي تضاف إلى تضمينات المدخلات للاحتفاظ معلومات حول بنية التسلسل.

تتكون البنية عادةً من مكدسات مشفر وفك تشفير:

  • أداة التشفير: يعالج بيانات الإدخال لإنشاء فهم سياقي.
  • أداة فك التشفير: يستخدم رؤى أداة التشفير لتوليد المخرجات، مثل النص المترجم أو وحدات بكسل الصورة المتوقعة.

تسمح هذه البنية المتوازية بقابلية توسع هائلة، مما يمكّن الباحثين من تدريب النماذج على مجموعات بيانات ضخمة باستخدام وحدات عالية الأداء.

المحولات في الرؤية الحاسوبية

على الرغم من أن البنية مصممة في الأصل للنصوص، إلا أنه تم تكييفها بنجاح مع المهام المرئية من خلال محول الرؤية (ViT). في هذا النهج, يتم تقسيم الصورة إلى سلسلة من الرقع ذات الحجم الثابت (على غرار الكلمات في الجملة). ثم يستخدم النموذج الانتباه الذاتي لتقييم أهمية الرقع المختلفة البقع المختلفة بالنسبة لبعضها البعض، والتقاط السياق العام الذي تستخدمه الشبكات العصبية التلافيفية التقليدية (CNNs) التقليدية.

على سبيل المثال، يستخدم يستخدم محول الكشف في الوقت الحقيقي (RT-DETR) هذه البنية هذه البنية لأداء دقة عالية في عالية الدقة. على عكس النماذج القائمة على CNN التي تعتمد على الميزات المحلية، يمكن ل RT-DETR فهم العلاقة بين الأجسام البعيدة في المشهد. ومع ذلك، من الجدير بالذكر تجدر الإشارة إلى أنه في حين تتفوق المحولات في السياق العالمي، فإن النماذج القائمة على شبكة CNN مثل Ultralytics YOLO11 غالبًا ما توفر توازنًا أفضل بين السرعة والدقة لتطبيقات الحافة في الوقت الحقيقي. نماذج المجتمع مثل YOLO12 حاولت دمج طبقات الانتباه الثقيلة ولكنها تعاني في كثير من الأحيان من عدم استقرار التدريب وبطء سرعة الاستدلال مقارنةً ببنية شبكة CNN المحسّنة في YOLO11.

تطبيقات واقعية

أدى تعدد استخدامات بنية المحولات إلى اعتمادها في مختلف الصناعات.

  • تحليل الصور الطبية: في مجال الرعاية الصحية، تساعد المحولات في تحليل الصور الطبية من خلال ربط الميزات عبر فحوصات عالية الدقة (مثل التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب) detect الحالات الشاذة مثل الأورام. تضمن قدرتها على فهم السياق العام يضمن عدم إغفال الأنماط الدقيقة.
  • الملاحة الذاتية القيادة: تستخدم السيارات ذاتية القيادة نماذج قائمة على المحولات لمعالجة موجزات الفيديو من كاميرات متعددة. يساعد ذلك في فهم الفيديو والتنبؤ بالمسار من خلال تتبع كيفية تفاعل الأجسام الديناميكية (المشاة والمركبات الأخرى) بمرور الوقت.
  • روبوتات المحادثة المتقدمة: يعتمد المساعدون الافتراضيون ووكلاء دعم العملاء على المحولات للحفاظ على السياق خلال المحادثات الطويلة، مما يحسّن تجربة المستخدم بشكل كبير مقارنةً بروبوتات الدردشة الآلية القديمة روبوتات المحادثة القديمة.

استخدام المحولات مع Ultralytics

يمكنك تجربة نماذج الرؤية الحاسوبية المستندة إلى المحول مباشرةً باستخدام ultralytics الحزمة. يوضح المثال التالي كيفية تحميل نموذج RT-DETR لاكتشاف الأجسام.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

المحولات مقابل البنى الأخرى

من المهم التمييز بين المحولات عن غيرها من بنيات الشائعة الأخرى للتعلم العميق (DL):

  • المحولات مقابل الشبكات الشبكية العصبية الشبكية ذاتية التحويل/شبكات RNN/شبكات LSTM: تعاني شبكات RNNs من مشكلة مشكلة التدرج المتلاشي، مما يجعلها تنسى المعلومات المبكرة في التسلسلات الطويلة. بينما تحل المحولات هذه المشكلة عن طريق الانتباه الذاتي، مما يحافظ على إمكانية الوصول إلى التسلسل بأكمله.
  • المحولات مقابل CNNs: تُعد شبكات CNN غير متغيرة في الترجمة وممتازة في اكتشاف الأنماط المحلية (الحواف والأنسجة) باستخدام العمود الفقري، مما يجعلها عالية كفاءة عالية في مهام الصور. تتعلم المحولات العلاقات العالمية ولكنها تتطلب عمومًا المزيد من البيانات وقوة الحوسبة للتقارب. غالبًا ما تنشئ الأساليب الحديثة نماذج هجينة أو تستخدم شبكات CNN فعالة مثل YOLO11 التي تتفوق في الأداء على المحولات البحتة في البيئات المقيدة في البيئات المقيدة.

التوقعات المستقبلية

تعمل الأبحاث باستمرار على تحسين كفاءة المحولات الكهربائية. الابتكارات مثل FlashAttention تقلل من التكلفة الحسابية, مما يسمح بنوافذ سياق أطول. علاوة على ذلك تعمل أنظمة الذكاء الاصطناعي متعددة الوسائط على دمج المحولات مع مع البنى الأخرى لمعالجة النصوص والصور والصوت في وقت واحد. ومع نضوج هذه التقنيات، ستوفر ستوفر منصةUltralytics القادمة بيئة موحدة لتدريب ونشر ونشر ومراقبة هذه النماذج المتطورة إلى جانب مهام الرؤية الحاسوبية القياسية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن