مسرد المصطلحات

المحول

اكتشف كيف تُحدِث بنيات Transformer ثورة في الذكاء الاصطناعي، وتحقق اختراقات في مجال البرمجة اللغوية العصبية والرؤية الحاسوبية ومهام التعلّم الآلي المتقدمة.

تمثّل المحولات بنية محورية للشبكات العصبية التي طورت بشكل كبير مجالات الذكاء الاصطناعي والتعلم الآلي، خاصة في معالجة اللغات الطبيعية وبشكل متزايد في مجال الرؤية الحاسوبية. تم تقديمها في ورقة بحثية مؤثرةبعنوان "الانتباه هو كل ما تحتاجه"، وهي تعالج البيانات المتسلسلة، مثل النصوص أو السلاسل الزمنية، باستخدام آلية تسمى الانتباه الذاتي. يتيح ذلك للنموذج أن يوازن ديناميكيًا بين أهمية الأجزاء المختلفة من المدخلات، متغلبًا بذلك على القيود الرئيسية للبنى القديمة مثل الشبكات العصبية المتكررة (RNNs).

كيف تعمل المحولات

الابتكار الأساسي في المحولات هو آلية الانتباه الذاتي. على عكس شبكات RNNs، التي تعالج المدخلات بالتتابع (عنصر تلو الآخر) ويمكن أن تعاني مع التسلسلات الطويلة بسبب مشاكل مثل تلاشي التدرجات، يمكن أن تأخذ المحولات جميع أجزاء تسلسل المدخلات في وقت واحد. تعمل هذه القدرة على المعالجة المتوازية على تسريع التدريب بشكل كبير على الأجهزة الحديثة مثل وحدات معالجة الرسومات من شركات مثل NVIDIA.

بينما تركز الشبكات العصبية التلافيفية النموذجية (CNNs) على السمات المحلية من خلال مرشحات ذات حجم ثابت تقوم بإجراء التلافيف، فإن آلية الانتباه تسمح للمتحولات بالتقاط التبعيات بعيدة المدى والعلاقات السياقية عبر المدخلات بأكملها. هذه القدرة على فهم السياق العالمي أمر بالغ الأهمية للمهام التي تنطوي على علاقات معقدة، سواء في النصوص أو بقع الصور المستخدمة في محولات الرؤية (ViTs).

الأهمية والأثر

أصبحت المحولات أساسًا للعديد من نماذج الذكاء الاصطناعي الحديثة نظرًا لفعاليتها في التقاط السياق والتعامل مع التسلسلات الطويلة. وقد مكّنت طبيعتها القابلة للتوازي من تدريب نماذج ضخمة بمليارات المعلمات، مثل GPT-3 و GPT-4 التي طورتها OpenAI، مما أدى إلى تحقيق اختراقات في الذكاء الاصطناعي التوليدي. وقد جعلت قابلية التوسع والأداء هذه من المحولات مركزية للتقدم في مختلف مهام الذكاء الاصطناعي، مما أدى إلى دفع عجلة الابتكار في مجال البحث والصناعة. العديد من نماذج المحولات الشائعة، مثل BERT، متاحة بسهولة من خلال منصات مثل Hugging Face ويتم تنفيذها باستخدام أطر عمل مثل PyTorch و TensorFlowوغالبًا ما يتم دمجها في منصات MLOPS مثل Ultralytics HUB.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

المحولات متعددة الاستخدامات للغاية وتشغل العديد من تطبيقات الذكاء الاصطناعي:

نماذج اللغات الكبيرة (LLMs): تشغيل نماذج مثل ChatGPT لفهم اللغة المعقدة ومهام التوليد اللغوي المعقدة.
الترجمة الآلية: تستخدم خدمات مثل Google Translate نماذج قائمة على المحولات للترجمة عالية الجودة بين اللغات.
تلخيص النصوص: تلخيص المستندات الكبيرة في ملخصات موجزة.
تحليل المشاعر: تحديد النبرة العاطفية وراء البيانات النصية.
روبوتات المحادثة والمساعدون الافتراضيون: تمكين محادثات أكثر طبيعية ومراعية للسياق.
محولات الرؤية (ViTs): تطبيق بنية المحولات على المهام البصرية.
تصنيف الصور: تصنيف الصور بناءً على محتواها باستخدام السمات العامة.
اكتشاف الأجسام: تحديد الأجسام وتحديد مواقعها داخل الصور، كما يظهر في نماذج مثل RT-DETR. تقدم بعض النماذج العمود الفقري القائم على المحولات. يمكنك استكشاف المقارنات التقنية مثل RT-DETRv2 مقابل YOLOv5.
تحليل الصور الطبية: المساعدة في الكشف عن الحالات الشاذة في عمليات المسح الضوئي، والمساهمة في التقدم في مجال الذكاء الاصطناعي في الرعاية الصحية.
توليد التسلسل في علم الأحياء: نمذجة تراكيب البروتين والتسلسل الجينومي.

المحول مقابل البنى الأخرى

من المفيد تمييز المحولات عن غيرها من بنيات الشبكات العصبية الشائعة الأخرى:

المحولات مقابل شبكات RNNs: تقوم شبكات RNNs بمعالجة البيانات بالتتابع، مما يجعلها مناسبة لبيانات السلاسل الزمنية ولكنها عرضة لنسيان المعلومات السابقة في التسلسلات الطويلة(مشكلة تلاشي التدرج). تقوم المحولات بمعالجة التسلسلات بالتوازي باستخدام الانتباه الذاتي، مما يجعلها تلتقط التبعيات بعيدة المدى بشكل أكثر فعالية وتتدرب بشكل أسرع على الأجهزة المتوازية(وحدات معالجة الرسومات).
المحولات مقابل الـ CNNs تتفوق الشبكات الشبكية المتكاملة في تحديد الأنماط المحلية في البيانات الشبيهة بالشبكة (على سبيل المثال، وحدات البكسل في الصورة) باستخدام مرشحات التلافيف. وهي ذات كفاءة عالية في العديد من مهام الرؤية مثل تلك التي تعالجها Ultralytics YOLO النماذج. تقسّم المحولات، وخاصةً نماذج الشبكات الافتراضية الافتراضية، الصور إلى رقع وتستخدم الانتباه الذاتي لنمذجة العلاقات بينها، مما قد يؤدي إلى التقاط السياق العام بشكل أفضل، ولكن غالبًا ما يتطلب المزيد من البيانات والموارد الحاسوبية، خاصةً أثناء تدريب النموذج. تهدف البنى الهجينة، التي تجمع بين ميزات سي إن إن وطبقات المحولات، إلى الاستفادة من نقاط القوة في كليهما، كما هو واضح في بعض متغيراتRT-DETR . يعتمد الاختيار غالبًا على المهمة المحددة وحجم مجموعة البيانات وموارد الحوسبة المتاحة.

المحول

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف تعمل المحولات

الأهمية والأثر

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

المحول مقابل البنى الأخرى

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

المحول

تدريب YOLO النماذجببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف تعمل المحولات

الأهمية والأثر

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

المحول مقابل البنى الأخرى

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB