Longformer
استكشف معمارية Longformer لمعالجة سلاسل البيانات الطويلة بكفاءة. تعرف على كيفية تغلب الانتباه المتناثر على قيود الذاكرة في معالجة اللغات الطبيعية ورؤية الحاسوب.
يعد Longformer نوعًا متخصصًا من معمارية التعلم العميق مصمم لمعالجة تسلسلات طويلة من البيانات بكفاءة، متجاوزًا قيود النماذج التقليدية. تم تقديمه في الأصل لمعالجة قيود المحولات (Transformers) القياسية، التي تواجه عادةً صعوبة في التعامل مع تسلسلات تتجاوز 512 رمزًا بسبب قيود الذاكرة، حيث يستخدم Longformer آلية انتباه معدلة. ومن خلال تقليل التعقيد الحسابي من تربيعي إلى خطي، تسمح هذه المعمارية لأنظمة الذكاء الاصطناعي بتحليل مستندات كاملة، أو نصوص طويلة، أو تسلسلات جينية معقدة في تمريرة واحدة دون الحاجة إلى اقتطاع المدخلات.
Link to this sectionمشكلة عنق زجاجة الانتباه#
لفهم أهمية Longformer، من الضروري النظر في قيود النماذج السابقة مثل BERT ونماذج GPT-3 المبكرة. تستخدم المحولات القياسية عملية "الانتباه الذاتي" حيث ينتبه كل رمز (كلمة أو جزء من كلمة) إلى كل رمز آخر في التسلسل. هذا يخلق تكلفة حسابية تربيعية؛ فمضاعفة طول التسلسل تزيد من الذاكرة المطلوبة على GPU بمقدار أربعة أضعاف. ونتيجة لذلك، تفرض معظم النماذج القياسية حدًا صارمًا على حجم المدخلات، مما يجبر علماء البيانات غالبًا على تقطيع المستندات إلى أجزاء أصغر وغير مترابطة، مما يؤدي إلى فقدان السياق.
يحل Longformer هذه المشكلة من خلال تقديم الانتباه المتناثر (Sparse Attention). فبدلاً من الاتصال الكامل بين جميع العناصر، يستخدم مزيجًا من الانتباه المحلي النافذي والانتباه العالمي:
- الانتباه بالنافذة المنزلقة (Sliding Window Attention): ينتبه كل رمز فقط إلى جيرانه المباشرين. هذا يلتقط السياق المحلي والهيكل النحوي، على غرار كيفية معالجة الشبكة العصبية التلافيفية (CNN) للصور.
- النافذة المنزلقة الممددة (Dilated Sliding Window): لزيادة مجال الاستقبال دون زيادة الحسابات، يمكن للنافذة دمج فجوات، مما يسمح للنموذج بالرؤية "أبعد" في النص.
- الانتباه العالمي (Global Attention): تنتبه رموز محددة مختارة مسبقًا (مثل رمز التصنيف
[CLS]) إلى جميع الرموز الأخرى في التسلسل، وتنتبه جميع الرموز إليها. يضمن هذا احتفاظ النموذج بفهم رفيع المستوى للمدخلات بالكامل لمهام مثل تلخيص النصوص.
Link to this sectionتطبيقات العالم الحقيقي#
إن القدرة على معالجة آلاف الرموز في وقت واحد تفتح إمكانيات جديدة لـ معالجة اللغات الطبيعية (NLP) وما بعدها.
Link to this sectionتحليل المستندات القانونية والطبية#
في صناعات مثل القانون والرعاية الصحية، نادرًا ما تكون المستندات قصيرة. يمكن أن يمتد العقد القانوني أو التاريخ الطبي للمريض لعشرات الصفحات. تتطلب نماذج اللغات الكبيرة (LLMs) التقليدية تجزئة هذه المستندات، مما قد يؤدي إلى فقدان تبعيات حاسمة بين بند في الصفحة 1 وتعريف في الصفحة 30. يسمح Longformer بـ التعرف على الكيانات المسماة (NER) والتصنيف عبر المستند بأكمله دفعة واحدة، مما يضمن تأثير السياق العالمي على تفسير مصطلحات محددة.
Link to this sectionالإجابة على الأسئلة الطويلة (QA)#
تعاني أنظمة الإجابة على الأسئلة القياسية غالبًا عندما تتطلب الإجابة على سؤال تجميع معلومات موزعة عبر مقال طويل. من خلال الاحتفاظ بالنص الكامل في الذاكرة، يمكن للنماذج القائمة على Longformer إجراء استدلال متعدد الخطوات، وربط الحقائق الموجودة في فقرات مختلفة لتوليد إجابة شاملة. هذا أمر بالغ الأهمية لأنظمة الدعم الفني الآلية وأدوات البحث الأكاديمي.
Link to this sectionتمييز المصطلحات الرئيسية#
- Longformer مقابل Transformer: يستخدم Transformer القياسي انتباه $N^2$ الكامل، مما يجعله دقيقًا ولكنه مكلف حسابيًا للمدخلات الطويلة. يستخدم Longformer انتباه $N$ متناثر، مما يضحي بقدر ضئيل جدًا من القدرة النظرية مقابل مكاسب هائلة في الكفاءة، مما يسمح بمدخلات تصل إلى 4,096 رمزًا أو أكثر.
- Longformer مقابل Transformer-XL: بينما يتعامل كلاهما مع تسلسلات طويلة، يعتمد Transformer-XL على آلية التكرار (تخزين الحالات السابقة) لتذكر الأجزاء السابقة. يعالج Longformer التسلسل الطويل محليًا في تمريرة واحدة، مما يبسط التدريب المتوازي على منصات مثل Ultralytics Platform.
- Longformer مقابل BigBird: هذه معماريات متشابهة جدًا تم تطويرها في نفس الفترة تقريبًا. يستخدم كلاهما آليات انتباه متناثرة لتحقيق توسع خطي. يقدم BigBird مكون انتباه عشوائي محدد بالإضافة إلى النوافذ المنزلقة.
Link to this sectionمفاهيم التنفيذ#
في حين أن Longformer هو معمارية وليس وظيفة محددة، فإن فهم كيفية إعداد البيانات لنماذج السياق الطويل أمر بالغ الأهمية. في أطر العمل الحديثة مثل PyTorch، يتضمن هذا غالبًا إدارة التضمينات التي تتجاوز الحدود القياسية.
يوضح المثال التالي إنشاء موتر مدخلات وهمي لسيناريو سياق طويل، ومقارنته بالحجم النموذجي المستخدم في نماذج الكشف القياسية مثل YOLO26.
import torch
# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))
# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))
print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")
# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.Link to this sectionالعلاقة برؤية الحاسوب#
على الرغم من تصميمه في الأصل للنصوص، أثرت المبادئ الكامنة وراء Longformer على رؤية الحاسوب. مفهوم قصر الانتباه على حي محلي مشابه للعمليات الموضعية في المهام البصرية. تواجه محولات الرؤية (ViT) مشكلات توسع مماثلة مع الصور عالية الدقة لأن عدد البكسلات (أو الرقع) يمكن أن يكون هائلاً. تُستخدم التقنيات المشتقة من الانتباه المتناثر لـ Longformer لتحسين كفاءة تصنيف الصور وكشف الأشياء، مما يساعد نماذج مثل YOLO26 على الحفاظ على سرعات عالية أثناء معالجة البيانات البصرية المفصلة.
لمزيد من القراءة حول تفاصيل المعمارية، توفر ورقة Longformer الأصلية من AllenAI معايير متعمقة ومبررات نظرية. بالإضافة إلى ذلك، غالبًا ما يستفيد التدريب الفعال لهذه النماذج الكبيرة من تقنيات مثل الدقة المختلطة وخوارزميات التحسين المتقدمة.






