اكتشف انتباه الفلاش - طريقة سريعة وفعالة من حيث الذاكرة لتحويل الانتباه إلى محول للانتباه تعمل على تسريع تدريب وحدة معالجة الرسومات والاستدلال في الوقت الفعلي للبرمجة اللغوية العصبية والسيرة الذاتية.
انتباه الوميض هو خوارزمية عالية الكفاءة مصممة لتنفيذ آلية الانتباه القياسية المستخدمة في شبكات المحولات. إنها ليست نوعًا جديدًا من الانتباه بل هي طريقة رائدة لحسابها بشكل أسرع بكثير وباستخدام ذاكرة أقل بكثير. ويُعد هذا التحسين أمرًا بالغ الأهمية لتدريب وتشغيل النماذج واسعة النطاق، لا سيما في معالجة اللغات الطبيعية والرؤية الحاسوبية. تم تفصيل الابتكار لأول مرة في الورقة البحثية "FlashAttention: انتباه دقيق سريع وفعّال من حيث الذاكرة مع وعي الإدخال والإخراج" من باحثين في جامعة ستانفورد.
إن عنق الزجاجة الأساسي في آليات الانتباه التقليدية ليس عدد العمليات الحسابية ولكن سرعة الوصول إلى الذاكرة على وحدة معالجة الرسومات. يتطلب الانتباه القياسي عمليات قراءة وكتابة متعددة إلى ذاكرة وحدة معالجة الرسومات ذات النطاق الترددي العالي (HBM)، وهي بطيئة نسبيًا مقارنةً بذاكرة SRAM المدمجة في وحدة معالجة الرسومات. يعيد تنبيه الفلاش الانتباه بذكاء هيكلة الحوسبة لتقليل عمليات نقل الذاكرة هذه. ويحقق ذلك من خلال:
يتفادى هذا النهج إنشاء وتخزين مصفوفة الانتباه الوسيطة الضخمة في HBM، والتي تعد المصدر الرئيسي لعدم كفاءة الذاكرة والتباطؤ في الانتباه القياسي، خاصةً عند التعامل مع تسلسلات طويلة من البيانات.
بينما ينتج عن الانتباه السريع والانتباه القياسي نتائج متكافئة رياضيًا، إلا أن كفاءتهما التشغيلية مختلفة إلى حد كبير. يكمن الفرق الرئيسي في وعي الأجهزة. آلية الانتباه الذاتي القياسية مرتبطة بالذاكرة، مما يعني أن سرعتها محدودة بمدى سرعة وصولها إلى الذاكرة. أما آلية الانتباه السريع فهي مقيدة بالحوسبة، مما يجعلها تستفيد بشكل أفضل من أنوية المعالجة القوية لوحدة معالجة الرسومات. وهذا يجعلها خوارزمية مدركة للإدخال/الإخراج، مما يسرع بشكل كبير من تدريب النموذج والاستدلال في الوقت الحقيقي.
تُقدِّم بعض النماذج، مثل YOLO12، بنيات تتمحور حول الانتباه حيث يمكن استخدام الانتباه السريع لتحسين الأداء. ومع ذلك، بالنسبة لمعظم التطبيقات، يوفر التصميم المرن والفعال لنماذج مثل Ultralytics YOLO11 توازنًا أكثر قوة بين السرعة والدقة.
لقد مكّنت كفاءة الانتباه السريع من تحقيق تقدم كبير في التعلم العميق.
من المهم ملاحظة أن استخدام Flash Attention يتطلب أجهزة معينة. فهو مصمم للاستفادة من بنية الذاكرة الخاصة بوحدات معالجة الرسومات NVIDIA الحديثة، بما في ذلك سلسلة Turing وAda Lovelace وAda Lovelace وHopper. تحتوي أطر عمل التعلم الآلي الحديثة مثل PyTorch والأدوات المتوفرة على Hugging Face على دعم متكامل لـ Flash Attention، مما يجعلها في متناول المطورين.