اكتشف قوة الانتباه الذاتي في الذكاء الاصطناعي، وإحداث ثورة في معالجة اللغة الطبيعية والرؤية الحاسوبية والتعرف على الكلام بدقة واعية بالسياق.
الانتباه الذاتي هو آلية تمكن النموذج من تقدير أهمية العناصر المختلفة داخل تسلسل إدخال واحد. بدلاً من معاملة كل جزء من الإدخال على قدم المساواة، فإنه يسمح للنموذج بالتركيز بشكل انتقائي على الأجزاء الأكثر صلة عند معالجة عنصر معين. هذه القدرة ضرورية لفهم السياق والتبعيات طويلة المدى والعلاقات داخل البيانات، وتشكل حجر الأساس للعديد من بنيات الذكاء الاصطناعي (AI) الحديثة، وخاصة المحولات (Transformer). تم تقديمه بشكل مشهور في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه (Attention Is All You Need)"، والتي أحدثت ثورة في مجال معالجة اللغة الطبيعية (NLP).
في جوهرها، تعمل آلية الانتباه الذاتي عن طريق تعيين "درجة انتباه" لكل عنصر آخر في تسلسل الإدخال بالنسبة إلى العنصر الذي تتم معالجته حاليًا. يتم تحقيق ذلك عن طريق إنشاء ثلاثة متجهات لكل عنصر إدخال: استعلام (Q) ومفتاح (K) وقيمة (V).
بالنسبة إلى استعلام معين، تحسب الآلية مدى تشابهه مع جميع المفاتيح في التسلسل. ثم يتم تحويل درجات التشابه هذه إلى أوزان (غالبًا باستخدام دالة softmax)، والتي تحدد مقدار التركيز الذي يجب وضعه على قيمة كل عنصر. الناتج النهائي للاستعلام هو مجموع مرجح لجميع القيم، مما يخلق تمثيلًا جديدًا لهذا العنصر مُثرى بسياق من التسلسل بأكمله. هذه العملية هي جزء أساسي من كيفية عمل نماذج اللغة الكبيرة (LLMs). يمكن العثور على شرح مرئي ممتاز لعملية Q-K-V هذه على موارد مثل مدونة Jay Alammar.
الانتباه الذاتي هو نوع معين من آلية الانتباه. والفرق الرئيسي هو مصدر متجهات الاستعلام (Query) والمفتاح (Key) والقيمة (Value).
في حين أن الانتباه الذاتي (Self-Attention) اشتهر لأول مرة في معالجة اللغة الطبيعية (NLP) لمهام مثل تلخيص النصوص والترجمة، فقد أثبت فعاليته العالية في الرؤية الحاسوبية (CV) أيضًا.
تستمر الأبحاث في تحسين آليات الانتباه الذاتي، بهدف تحقيق كفاءة حسابية أكبر (على سبيل المثال، طرق مثل FlashAttention ومتغيرات الانتباه المتفرقة) وقابلية تطبيق أوسع. مع تزايد تعقيد نماذج الذكاء الاصطناعي، من المتوقع أن يظل الانتباه الذاتي تقنية أساسية، تدفع التقدم في مجالات من تطبيقات الذكاء الاصطناعي المتخصصة مثل الروبوتات إلى السعي لتحقيق الذكاء الاصطناعي العام (AGI). تسهل الأدوات والمنصات مثل Ultralytics HUB تدريب و نشر النماذج التي تتضمن هذه التقنيات المتقدمة، والتي غالبًا ما تكون متاحة عبر مستودعات مثل Hugging Face وتم تطويرها باستخدام أطر عمل مثل PyTorch و TensorFlow.