Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

آلية الانتباه الذاتي (Self-Attention)

اكتشف قوة الانتباه الذاتي في الذكاء الاصطناعي، وإحداث ثورة في معالجة اللغة الطبيعية والرؤية الحاسوبية والتعرف على الكلام بدقة واعية بالسياق.

الانتباه الذاتي هو آلية داخل نماذج التعلُّم العميق تُمكِّنها من تقييم أهمية العناصر المختلفة المختلفة في تسلسل المدخلات بالنسبة لبعضها البعض. على عكس البنى التقليدية التي تعالج البيانات بالتتابع أو محلياً، فإن الانتباه الذاتي يسمح للنموذج بالنظر إلى التسلسل بأكمله دفعة واحدة وتحديد الأجزاء الأكثر ذات صلة بفهم العنصر الحالي. هذه القدرة هي السمة المميزة لـ بنية المحولات، والتي أحدثت ثورة في مجالات تتراوح بين معالجة اللغة الطبيعية (NLP) إلى الرؤية الحاسوبية المتقدمة (CV). من خلال حساب العلاقات بين كل زوج من العناصر في مجموعة البيانات، يوفر الانتباه الذاتي فهمًا عالميًا للسياق الذي يصعب تحقيقه بالطرق القديمة مثل الشبكات العصبية المتكررة (RNNs).

كيف يعمل الانتباه الذاتي (Self-Attention)

من الناحية المفاهيمية، يحاكي الانتباه الذاتي كيفية معالجة البشر للمعلومات من خلال التركيز على تفاصيل محددة مع تجاهل الضوضاء غير ذات الصلة. عند معالجة جملة أو صورة، يقوم النموذج بتعيين "درجات الانتباه" لكل عنصر. تحدد هذه الدرجات مقدار التركيز الذي يجب أن يتم وضعه على أجزاء أخرى من المدخلات عند ترميز كلمة أو بكسل معين.

تتضمن العملية عادةً إنشاء ثلاثة متجهات لكل عنصر إدخال: استعلام، و مفتاح، وقيمة.

  • استعلام: يمثل العنصر الحالي الذي يطلب المعلومات ذات الصلة.
  • المفتاح: يعمل كمعرف للعناصر الأخرى في التسلسل.
  • القيمة: تحتوي على محتوى المعلومات الفعلي.

يقارن النموذج استعلام عنصر واحد بمفاتيح جميع العناصر الأخرى لحساب التوافق. هذه التوافق هذه يتم تطبيعها باستخدام دالة دالة softmax لإنشاء أوزان. أخيرًا، تُطبَّق هذه الأوزان على القيم لإنتاج تمثيل جديد مدرك للسياق. تسمح هذه المعالجة المتوازية الفعالة بتدريب نماذج لغات كبيرة (LLMs) ونماذج رؤية قوية نماذج رؤية قوية باستخدام وحدات معالجة الرسوميات الحديثة. للحصول على غوص بصري أعمق، فإن موارد مثل محول جاي العمار المصور يقدم حدسًا ممتازًا.

الانتباه الذاتي مقابل الانتباه العام

على الرغم من أن المصطلحين غالبًا ما يستخدمان بشكل متقارب، إلا أنه من المفيد التمييز بين الانتباه الذاتي الأوسع نطاقًا.

  • انتباه ذاتي: يأتي كل من الاستعلام والمفتاح والقيمة من نفس تسلسل الإدخال. الهدف هو تعلّم العلاقات الداخلية، مثل كيفية ارتباط الكلمات في جملة ما ببعضها البعض (على سبيل المثال، فهم ما تشير إليه كلمة "هو" في فقرة ما).
  • انتباه متقاطع: غالبًا ما يُستخدم في نماذج التسلسل إلى التسلسل، يأتي يأتي الاستعلام من تسلسل واحد (مثل أداة فك التشفير) بينما يأتي المفتاح والقيمة من تسلسل آخر (مثل أداة التشفير). هذا الأمر شائعًا في الترجمة الآلية حيث يكون يتوافق مخرج اللغة الهدف مع مدخلات اللغة المصدر.

تطبيقات واقعية

إن القدرة على التقاط التبعيات بعيدة المدى جعلت الانتباه الذاتي في كل مكان في كل مكان في الذكاء الاصطناعي الحديث.

  1. التحليل السياقي للنص: في البرمجة اللغوية العصبية، يحل الانتباه الذاتي الغموض. تأمل كلمة "البنك". في جملة "اصطاد السمك على ضفة النهر"، يستخدم النموذج الانتباه الذاتي لربط كلمة "بنك" بكلمة "اصطاد" و"نهر"، مميّزًا إياها عن المؤسسة المالية. وهذا يدعم أدوات مثل ترجمةGoogle وروبوتات الدردشة المبنية على الذكاء الاصطناعي التوليدي.
  2. الفهم العالمي للصور: في الرؤية الحاسوبية، نماذج مثل محول الرؤية (ViT) يقسم الصور إلى بقع وتستخدم الانتباه الذاتي لربط الأجزاء البعيدة من المشهد. هذا أمر بالغ الأهمية من أجل اكتشاف الأجسام في البيئات المزدحمة. إن Ultralytics RT-DETR (محول الكشف في الوقت الحقيقي) يستفيد من ذلك لتحقيق دقة عالية من خلال إدارة السياق العالمي بفعالية، على عكس الشبكات العصبية التلافيفية القياسية (CNNs) التي تركز على السمات المحلية.

مثال على الرمز

يوضّح مقتطف Python التالي كيفية تحميل واستخدام نموذج قائم على المحول الذي يعتمد على الانتباه الذاتي للاستدلال باستخدام ultralytics الحزمة.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

الأهمية في البنى الحديثة

تم تقديم الانتباه الذاتي في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه" من قبل باحثي Google . وقد عالجت عالجت مشكلة التدرج المتلاشي التي التي ابتليت بها معماريات التعلم العميق السابقة، مما مكن من إنشاء نماذج أساسية مثل GPT-4.

على الرغم من أن النماذج القائمة على الانتباه قوية، إلا أنها قد تكون مكلفة من الناحية الحسابية. بالنسبة للعديد من التطبيقات في الوقت الحقيقي النماذج الفعالة القائمة على CNN مثل YOLO11 تظل الخيار الخيار الموصى به نظرًا لسرعتها وانخفاض حجم ذاكرتها. ومع ذلك، فإن الأساليب الهجينة والمحولات المحسنة تواصل دفع حدود التعلم الآلي. بالنظر إلى المستقبل، تهدف تهدف البنى القادمة مثل YOLO26 إلى دمج أفضل ما في كلا العالمين، وتقديم قدرات شاملة على منصةUltralytics . أطر عمل مثل PyTorch و TensorFlow يوفران اللبنات الأساسية للمطورين من أجل لتجربة طبقات الانتباه الذاتي المتقدمة هذه.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن