اكتشف كيف تُحدث Architectures Transformer ثورة في الذكاء الاصطناعي، مما يدعم اختراقات في البرمجة اللغوية العصبية (NLP)، والرؤية الحاسوبية، ومهام تعلم الآلة المتقدمة.
المحول هو بنية شبكة عصبية رائدة تستخدم آلية انتباه ذاتي لمعالجة البيانات المدخلة بالتوازي، مما يحدث ثورة كبيرة في مجالات معالجة اللغة الطبيعية (NLP) والرؤية الحاسوبية (CV). تم تقديمها لأول مرة من قبل باحثو Google في الورقة البحثية الأساسية لعام 2017 "الانتباه هو كل ما تحتاج إليه"، يبتعد المحول عن المعالجة المتسلسلة التي تستخدمها البنى القديمة. وبدلاً من ذلك، فإنه يحلل تسلسلات كاملة من البيانات في وقت واحد, مما يسمح له بالتقاط التبعيات بعيدة المدى والعلاقات السياقية بكفاءة غير مسبوقة. هذه البنية تعمل هذه البنية كأساس للذكاء الاصطناعي الذكاء الاصطناعي التوليدي الحديث و نماذج اللغات الكبيرة (LLMs) مثل GPT-4.
إن السمة المميزة للمحول هي اعتماده على آلية الانتباه، وتحديداً الانتباه الذاتي. على عكس الشبكات العصبية المتكررة (RNNs), التي تعالج البيانات خطوة بخطوة (على سبيل المثال، كلمة بكلمة)، فإن المحولات تستوعب المدخلات بأكملها دفعة واحدة. لفهم ترتيب البيانات، فإنها تستخدم الترميزات الموضعية، والتي تضاف إلى تضمينات المدخلات للاحتفاظ معلومات حول بنية التسلسل.
تتكون البنية عادةً من مكدسات مشفر وفك تشفير:
تسمح هذه البنية المتوازية بقابلية توسع هائلة، مما يمكّن الباحثين من تدريب النماذج على مجموعات بيانات ضخمة باستخدام وحدات عالية الأداء.
على الرغم من أن البنية مصممة في الأصل للنصوص، إلا أنه تم تكييفها بنجاح مع المهام المرئية من خلال محول الرؤية (ViT). في هذا النهج, يتم تقسيم الصورة إلى سلسلة من الرقع ذات الحجم الثابت (على غرار الكلمات في الجملة). ثم يستخدم النموذج الانتباه الذاتي لتقييم أهمية الرقع المختلفة البقع المختلفة بالنسبة لبعضها البعض، والتقاط السياق العام الذي تستخدمه الشبكات العصبية التلافيفية التقليدية (CNNs) التقليدية.
على سبيل المثال، يستخدم يستخدم محول الكشف في الوقت الحقيقي (RT-DETR) هذه البنية هذه البنية لأداء دقة عالية في عالية الدقة. على عكس النماذج القائمة على CNN التي تعتمد على الميزات المحلية، يمكن ل RT-DETR فهم العلاقة بين الأجسام البعيدة في المشهد. ومع ذلك، من الجدير بالذكر تجدر الإشارة إلى أنه في حين تتفوق المحولات في السياق العالمي، فإن النماذج القائمة على شبكة CNN مثل Ultralytics YOLO11 غالبًا ما توفر توازنًا أفضل بين السرعة والدقة لتطبيقات الحافة في الوقت الحقيقي. نماذج المجتمع مثل YOLO12 حاولت دمج طبقات الانتباه الثقيلة ولكنها تعاني في كثير من الأحيان من عدم استقرار التدريب وبطء سرعة الاستدلال مقارنةً ببنية شبكة CNN المحسّنة في YOLO11.
أدى تعدد استخدامات بنية المحولات إلى اعتمادها في مختلف الصناعات.
يمكنك تجربة نماذج الرؤية الحاسوبية المستندة إلى المحول مباشرةً باستخدام ultralytics الحزمة.
يوضح المثال التالي كيفية تحميل نموذج RT-DETR لاكتشاف الأجسام.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
من المهم التمييز بين المحولات عن غيرها من بنيات الشائعة الأخرى للتعلم العميق (DL):
تعمل الأبحاث باستمرار على تحسين كفاءة المحولات الكهربائية. الابتكارات مثل FlashAttention تقلل من التكلفة الحسابية, مما يسمح بنوافذ سياق أطول. علاوة على ذلك تعمل أنظمة الذكاء الاصطناعي متعددة الوسائط على دمج المحولات مع مع البنى الأخرى لمعالجة النصوص والصور والصوت في وقت واحد. ومع نضوج هذه التقنيات، ستوفر ستوفر منصةUltralytics القادمة بيئة موحدة لتدريب ونشر ونشر ومراقبة هذه النماذج المتطورة إلى جانب مهام الرؤية الحاسوبية القياسية.