Token Merging (ToMe)
تعلم كيف يعمل دمج الرموز (ToMe) على تحسين نماذج Transformer و ViT. اكتشف كيفية تقليل عمليات الفاصلة العائمة (FLOPs)، وتسريع الاستدلال في الوقت الفعلي، وزيادة سرعة الذكاء الاصطناعي التوليدي.
يُعد دمج الرموز (ToMe) تقنية حديثة مصممة لتحسين أداء وكفاءة بنيات Transformer عن طريق تقليل عدد الرموز التي تتم معالجتها أثناء التمرير الأمامي. تم تطوير ToMe في الأصل لتسريع نماذج Vision Transformer (ViT)، ويعمل من خلال تحديد الرموز الزائدة في الشبكة ودمجها بشكل منهجي دون الحاجة إلى أي تدريب إضافي. ونظرًا لأن التعقيد الحسابي لآلية self-attention يزداد تربيعياً مع عدد الرموز، فإن دمج الرموز المتشابهة يقلل بشكل كبير من إجمالي العمليات الحسابية للنقاط العائمة (FLOPs)، مما يتيح real-time inference أسرع بكثير.
Link to this sectionفهم عملية دمج الرموز#
يختلف ToMe اختلافاً جوهرياً عن tokenization، وهي خطوة المعالجة الأولية المتمثلة في تقسيم الصورة أو النص إلى tokens فردية. فبينما تعمل الرموز على إنشاء العناصر المنفصلة، يعمل دمج الرموز كآلية ديناميكية لأخذ العينات الفرعية أثناء التنفيذ الأمامي للنموذج.
تستخدم الخوارزمية عادةً المطابقة الثنائية لتقييم تشابه الرموز، وغالباً ما تحسب تشابه جيب التمام (cosine similarity) بين مفاتيح الرموز في طبقات الانتباه. يتم دمج الرموز التي تشترك في معلومات مرئية أو دلالية متشابهة جداً، وذلك عن طريق حساب متوسط ميزاتها في الغالب. يضمن هذا الحفاظ على المعلومات المكانية أو السياقية الأساسية مع تقليل العبء الحسابي غير الضروري، مما يسمح لأطر العمل مثل PyTorch بمعالجة نماذج الرؤية المعقدة بشكل أسرع بكثير.
Link to this sectionتطبيقات العالم الحقيقي لدمج الرموز#
أصبح دمج الرموز استراتيجية تحسين بالغة الأهمية لنشر بنيات ثقيلة قائمة على الانتباه في البيئات ذات الموارد الحسابية المحدودة.
-
Generative AI and Image Synthesis: في نماذج الانتشار الشائعة لتحويل النص إلى صورة، يُستخدم ToMe بشكل متكرر لتسريع توليد الصور. فمن خلال دمج رموز الخلفية أو الرموز ذات التفاصيل المنخفضة، تتطلب عملية التوليد خطوات أقل، مما يوفر موارد GPU هائلة ويقلل من زمن الاستجابة للمستخدمين النهائيين الذين يعتمدون على النماذج التوليدية. يمكنك معرفة المزيد حول عمليات الانتشار في الأبحاث الأساسية على arXiv.
-
Edge AI Deployments: يُعد نشر نماذج ضخمة مثل Segment Anything Model (SAM) على الأجهزة المحمولة أمراً صعباً للغاية بسبب قيود الذاكرة. يساعد ToMe في تقليل حجم الذاكرة المستخدمة ديناميكياً، مما يسمح بمهام image segmentation المعقدة بالعمل على أجهزة الحافة (edge hardware). وفي السيناريوهات التي تكون فيها السرعة الصرفة أمراً بالغ الأهمية، غالباً ما يتحول المهندسون إلى بنيات محسنة أصلاً وخالية من الانتباه مثل Ultralytics YOLO26 لسرعة استنتاج نهائية أسرع من الطرف إلى الطرف.
Link to this sectionمثال Python: حساب تشابه الرموز#
بينما يتطلب دمج ToMe في بنية كاملة تعديل كتل الانتباه، يعتمد المفهوم الأساسي على إيجاد رموز متشابهة. يوضح مقتطف PyTorch التالي كيفية حساب تشابه جيب التمام بين مجموعة من الرموز لتحديد أي منها مرشح للدمج.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)تتطلب خطوط أنابيب التعلم الآلي الحديثة موازنة دقيقة بين الدقة والسرعة. سواء كنت تستخدم دمج الرموز لتحسين نموذج ViT مخصص أو تعتمد على كفاءة YOLO26 المتطورة، فإن إدارة تدفقات البيانات المعقدة هذه تصبح مبسطة إلى حد كبير بواسطة Ultralytics Platform. توفر المنصة نظاماً بيئياً بديهياً لـ data annotation المؤتمت، والتدريب السحابي السلس، ونشر النماذج القوي عبر بيئات أجهزة edge computing المتنوعة. تعتمد المؤسسات التي توسع مبادراتها في computer vision على هذه الأدوات لدفع النماذج المتطورة إلى الإنتاج بشكل موثوق وفعال.






