اكتشف قوة الانتباه الذاتي في الذكاء الاصطناعي، وإحداث ثورة في معالجة اللغة الطبيعية والرؤية الحاسوبية والتعرف على الكلام بدقة واعية بالسياق.
الانتباه الذاتي هو آلية داخل نماذج التعلُّم العميق تُمكِّنها من تقييم أهمية العناصر المختلفة المختلفة في تسلسل المدخلات بالنسبة لبعضها البعض. على عكس البنى التقليدية التي تعالج البيانات بالتتابع أو محلياً، فإن الانتباه الذاتي يسمح للنموذج بالنظر إلى التسلسل بأكمله دفعة واحدة وتحديد الأجزاء الأكثر ذات صلة بفهم العنصر الحالي. هذه القدرة هي السمة المميزة لـ بنية المحولات، والتي أحدثت ثورة في مجالات تتراوح بين معالجة اللغة الطبيعية (NLP) إلى الرؤية الحاسوبية المتقدمة (CV). من خلال حساب العلاقات بين كل زوج من العناصر في مجموعة البيانات، يوفر الانتباه الذاتي فهمًا عالميًا للسياق الذي يصعب تحقيقه بالطرق القديمة مثل الشبكات العصبية المتكررة (RNNs).
من الناحية المفاهيمية، يحاكي الانتباه الذاتي كيفية معالجة البشر للمعلومات من خلال التركيز على تفاصيل محددة مع تجاهل الضوضاء غير ذات الصلة. عند معالجة جملة أو صورة، يقوم النموذج بتعيين "درجات الانتباه" لكل عنصر. تحدد هذه الدرجات مقدار التركيز الذي يجب أن يتم وضعه على أجزاء أخرى من المدخلات عند ترميز كلمة أو بكسل معين.
تتضمن العملية عادةً إنشاء ثلاثة متجهات لكل عنصر إدخال: استعلام، و مفتاح، وقيمة.
يقارن النموذج استعلام عنصر واحد بمفاتيح جميع العناصر الأخرى لحساب التوافق. هذه التوافق هذه يتم تطبيعها باستخدام دالة دالة softmax لإنشاء أوزان. أخيرًا، تُطبَّق هذه الأوزان على القيم لإنتاج تمثيل جديد مدرك للسياق. تسمح هذه المعالجة المتوازية الفعالة بتدريب نماذج لغات كبيرة (LLMs) ونماذج رؤية قوية نماذج رؤية قوية باستخدام وحدات معالجة الرسوميات الحديثة. للحصول على غوص بصري أعمق، فإن موارد مثل محول جاي العمار المصور يقدم حدسًا ممتازًا.
على الرغم من أن المصطلحين غالبًا ما يستخدمان بشكل متقارب، إلا أنه من المفيد التمييز بين الانتباه الذاتي الأوسع نطاقًا.
إن القدرة على التقاط التبعيات بعيدة المدى جعلت الانتباه الذاتي في كل مكان في كل مكان في الذكاء الاصطناعي الحديث.
يوضّح مقتطف Python التالي كيفية تحميل واستخدام نموذج قائم على المحول الذي يعتمد على الانتباه الذاتي
للاستدلال باستخدام ultralytics الحزمة.
from ultralytics import RTDETR
# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class probabilities
results[0].show()
تم تقديم الانتباه الذاتي في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه" من قبل باحثي Google . وقد عالجت عالجت مشكلة التدرج المتلاشي التي التي ابتليت بها معماريات التعلم العميق السابقة، مما مكن من إنشاء نماذج أساسية مثل GPT-4.
على الرغم من أن النماذج القائمة على الانتباه قوية، إلا أنها قد تكون مكلفة من الناحية الحسابية. بالنسبة للعديد من التطبيقات في الوقت الحقيقي النماذج الفعالة القائمة على CNN مثل YOLO11 تظل الخيار الخيار الموصى به نظرًا لسرعتها وانخفاض حجم ذاكرتها. ومع ذلك، فإن الأساليب الهجينة والمحولات المحسنة تواصل دفع حدود التعلم الآلي. بالنظر إلى المستقبل، تهدف تهدف البنى القادمة مثل YOLO26 إلى دمج أفضل ما في كلا العالمين، وتقديم قدرات شاملة على منصةUltralytics . أطر عمل مثل PyTorch و TensorFlow يوفران اللبنات الأساسية للمطورين من أجل لتجربة طبقات الانتباه الذاتي المتقدمة هذه.