Self-Attention
استكشف أساسيات الانتباه الذاتي (self-attention) في التعلم العميق. تعلم كيف تعمل متجهات الاستعلام (Query)، والمفتاح (Key)، والقيمة (Value) على تشغيل Transformers و Ultralytics YOLO26 للحصول على ذكاء اصطناعي متفوق.
يُعد الانتباه الذاتي آلية أساسية في التعلم العميق تُمكّن النماذج من تحديد أهمية العناصر المختلفة داخل تسلسل إدخال معين بالنسبة لبعضها البعض. وعلى عكس البنى التقليدية التي تعالج البيانات بشكل متسلسل أو تركز فقط على النطاقات المحلية، يسمح الانتباه الذاتي لـ شبكة عصبية بفحص السياق بأكمله في وقت واحد. تساعد هذه القدرة الأنظمة على تحديد العلاقات المعقدة بين أجزاء البيانات المتباعدة، مثل الكلمات في جملة أو مناطق متميزة في صورة. وهي بمثابة اللبنة الأساسية لبنية Transformer، التي دفعت عجلة التقدم الهائل في الذكاء الاصطناعي التوليدي وأنظمة الإدراك الحديثة.
Link to this sectionكيف يعمل الانتباه الذاتي#
تحاكي هذه الآلية التركيز الإدراكي من خلال تعيين وزن، يُسمى غالباً "درجة الانتباه"، لكل ميزة من ميزات الإدخال. ولحساب هذه الدرجات، يقوم النموذج بتحويل بيانات الإدخال - التي يتم تمثيلها عادةً كـ تضمينات - إلى ثلاثة متجهات متميزة: الاستعلام (Query)، والمفتاح (Key)، والقيمة (Value).
- الاستعلام (Query): يمثل العنصر الحالي الذي يسعى للحصول على سياق ذي صلة من بقية التسلسل.
- المفتاح (Key): يعمل كملصق أو مُعرف لكل عنصر في التسلسل الذي يتم مطابقة الاستعلام معه.
- القيمة (Value): تحتوي على المحتوى المعلوماتي الفعلي للعنصر الذي سيتم تجميعه.
يقارن النموذج استعلام عنصر واحد بمفاتيح جميع العناصر الأخرى لتحديد التوافق. يتم تسوية درجات التوافق هذه باستخدام دالة softmax لإنشاء أوزان تشبه الاحتمالات. بعد ذلك، تُطبق هذه الأوزان على القيم، مما يؤدي إلى إنشاء تمثيل غني بالسياق. تُمكّن هذه العملية النماذج اللغوية الكبيرة (LLMs) وأنظمة الرؤية من إعطاء الأولوية للمعلومات الهامة مع تصفية الضوضاء.
Link to this sectionتطبيقات العالم الحقيقي#
أدت مرونة الانتباه الذاتي إلى اعتماده على نطاق واسع عبر مجالات مختلفة من الذكاء الاصطناعي (AI).
- معالجة اللغات الطبيعية (NLP): في مهام مثل الترجمة الآلية، يحل الانتباه الذاتي الغموض عن طريق ربط الضمائر بمرجعياتها. على سبيل المثال، في الجملة "لم يعبر الحيوان الشارع لأنه كان متعباً جداً"، يستخدم النموذج الانتباه الذاتي لربط "لأنه" بقوة بـ "الحيوان" بدلاً من "الشارع". يعزز هذا الوعي السياقي أدوات مثل Google Translate.
- سياق الصورة العالمي: في رؤية الحاسوب (CV)، تقوم البنى مثل Vision Transformer (ViT) بتقسيم الصور إلى رقع وتطبيق الانتباه الذاتي لفهم المشهد بشكل شامل. يعد هذا أمراً حيوياً لـ اكتشاف الكائنات في البيئات المعقدة حيث يعتمد تحديد كائن ما على فهم محيطه.
Link to this sectionالتمييز بين المصطلحات ذات الصلة#
على الرغم من مناقشتها غالباً جنباً إلى جنب مع مفاهيم مماثلة، إلا أن لهذه المصطلحات تعريفات تقنية متميزة:
- آلية الانتباه: الفئة الواسعة من التقنيات التي تسمح للنماذج بالتركيز على أجزاء معينة من البيانات. وهي تشمل الانتباه المتبادل (Cross-Attention)، حيث يستخدم النموذج تسلسلاً واحداً (مثل مخرج وحدة فك التشفير) للاستعلام عن تسلسل مختلف (مثل مدخل وحدة التشفير).
- الانتباه الذاتي (Self-Attention): نوع محدد من الانتباه حيث تنشأ كل من الاستعلام والمفتاح والقيمة من نفس تسلسل الإدخال. وهي مصممة لتعلم التبعيات الداخلية ضمن مجموعة بيانات واحدة.
- Flash Attention: خوارزمية تحسين طورها باحثون في جامعة ستانفورد تجعل حساب الانتباه الذاتي أسرع بكثير وأكثر كفاءة في استخدام الذاكرة على وحدات معالجة الرسومات (GPUs) دون تغيير المخرج الرياضي.
Link to this sectionمثال برمجي#
يوضح مقتطف Python التالي كيفية استخدام RTDETR، وهو كاشف كائنات يعتمد على Transformer ومضمن في حزمة ultralytics. على عكس الشبكات التلافيفية القياسية، يعتمد هذا النموذج بشكل كبير على الانتباه الذاتي لمعالجة الميزات المرئية.
from ultralytics import RTDETR
# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")Link to this sectionالتطور والتأثير المستقبلي#
نجح الانتباه الذاتي في حل مشكلة تلاشي التدرج التي أعاقت الشبكات العصبية المتكررة (RNNs) في وقت سابق، مما مكن من تدريب نماذج أساسية ضخمة. وعلى الرغم من فعاليتها العالية، إلا أن التكلفة الحسابية للانتباه الذاتي القياسي تنمو بشكل تربيعي مع طول التسلسل. ولمعالجة هذه المشكلة، تركز الأبحاث الحالية على آليات انتباه خطية فعالة.
تدمج Ultralytics هذه التطورات في نماذج متطورة مثل YOLO26، الذي يجمع بين سرعة الشبكات العصبية التلافيفية (CNNs) والقوة السياقية للانتباه لتحقيق استدلال فائق في الوقت الفعلي. يمكن تدريب هذه النماذج المحسنة ونشرها بسهولة عبر منصة Ultralytics، مما يبسط سير العمل للمطورين الذين يبنون الجيل القادم من التطبيقات الذكية.






