تعرف على كيفية قيام تقنية دمج الرموز (ToMe) بتحسين أداء نماذج Transformer وViT. اكتشف كيفية تقليل عدد عمليات FLOPs، وتسريع الاستدلال في الوقت الفعلي، وزيادة سرعة الذكاء الاصطناعي التوليدي.
يُعد دمج الرموز (ToMe) تقنية متطورة مصممة لتحسين أداء وكفاءة بنى «ترانسفورمر» من خلال تقليل عدد الرموز التي تتم معالجتها خلال المراحل الأمامية. تم تطوير ToMe في الأصل لتسريع نماذج Vision Transformer (ViT) ، وتعمل من خلال تحديد الرموز الزائدة ودمجها بشكل منهجي داخل الشبكة دون الحاجة إلى أي تدريب إضافي. نظرًا لأن التعقيد الحسابي لآلية الانتباه الذاتي يتناسب تربيعيًا مع عدد الرموز، فإن دمج الرموز المتشابهة يقلل بشكل كبير من إجمالي عمليات النقاط العائمة (FLOPs)، مما يتيح استدلالًا في الوقت الفعلي أسرع بكثير.
يختلف ToMe اختلافًا جوهريًا عن عملية التقطيع إلى رموز، وهي الخطوة الأولية للمعالجة المسبقة التي تتمثل في تقسيم الصورة أو النص إلى رموز فردية. وفي حين أن عملية التقطيع إلى رموز تُنشئ عناصر منفصلة، فإن عملية دمج الرموز تعمل كآلية ديناميكية لتقليل الدقة أثناء التنفيذ الأمامي للنموذج.
تستخدم الخوارزمية عادةً المطابقة الثنائية لتقييم تشابه الرموز، وغالبًا ما تحسب تشابه جيب التمام بين مفاتيح الرموز في طبقات الانتباه. ويتم دمج الرموز التي تشترك في معلومات بصرية أو دلالية متشابهة للغاية — غالبًا عن طريق حساب متوسط خصائصها. وهذا يضمن الحفاظ على المعلومات المكانية أو السياقية الأساسية مع التخلص من الحمل الحسابي غير الضروري، مما يسمح لأطر عمل مثل PyTorch معالجة نماذج الرؤية المعقدة بشكل أسرع بكثير.
أصبح دمج الرموز استراتيجية تحسين حاسمة لنشر البنى الثقيلة القائمة على الانتباه في البيئات ذات الموارد الحاسوبية المحدودة.
على الرغم من أن دمج ToMe في بنية كاملة يتطلب تعديل كتل الانتباه، فإن المفهوم الأساسي يعتمد على العثور على الرموز المتشابهة. يوضح PyTorch التالي PyTorch كيف يمكن حساب تشابه جيب التمام بين مجموعة من الرموز لتحديد أي منها مرشحة للدمج.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)
تتطلب مسارات التعلم الآلي الحديثة تحقيق توازن دقيق بين الدقة والسرعة. وسواء كنت تستخدم تقنية دمج الرموز (Token Merging) لتحسين نموذج ViT مخصص، أو تعتمد على الكفاءات المتطورة لنظام YOLO26، فإن Ultralytics تعمل على تبسيط إدارة تدفقات العمل المعقدة هذه بشكل كبير. توفر المنصة نظامًا بيئيًا سهل الاستخدام لتعليق البيانات تلقائيًا، والتدريب السحابي السلس، و نشر النماذج بشكل موثوق عبر بيئات متنوعة لأجهزة الحوسبة الطرفية. تعتمد المؤسسات التي تعمل على توسيع مبادرات الرؤية الحاسوبية الخاصة بها على هذه الأدوات لدفع النماذج المتطورة إلى مرحلة الإنتاج بشكل موثوق وفعال.
ابدأ رحلتك مع مستقبل تعلم الآلة