Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

دمج الرموز (ToMe)

تعرف على كيفية قيام تقنية دمج الرموز (ToMe) بتحسين أداء نماذج Transformer وViT. اكتشف كيفية تقليل عدد عمليات FLOPs، وتسريع الاستدلال في الوقت الفعلي، وزيادة سرعة الذكاء الاصطناعي التوليدي.

يُعد دمج الرموز (ToMe) تقنية متطورة مصممة لتحسين أداء وكفاءة بنى «ترانسفورمر» من خلال تقليل عدد الرموز التي تتم معالجتها خلال المراحل الأمامية. تم تطوير ToMe في الأصل لتسريع نماذج Vision Transformer (ViT) ، وتعمل من خلال تحديد الرموز الزائدة ودمجها بشكل منهجي داخل الشبكة دون الحاجة إلى أي تدريب إضافي. نظرًا لأن التعقيد الحسابي لآلية الانتباه الذاتي يتناسب تربيعيًا مع عدد الرموز، فإن دمج الرموز المتشابهة يقلل بشكل كبير من إجمالي عمليات النقاط العائمة (FLOPs)، مما يتيح استدلالًا في الوقت الفعلي أسرع بكثير.

فهم عملية دمج الرموز

يختلف ToMe اختلافًا جوهريًا عن عملية التقطيع إلى رموز، وهي الخطوة الأولية للمعالجة المسبقة التي تتمثل في تقسيم الصورة أو النص إلى رموز فردية. وفي حين أن عملية التقطيع إلى رموز تُنشئ عناصر منفصلة، فإن عملية دمج الرموز تعمل كآلية ديناميكية لتقليل الدقة أثناء التنفيذ الأمامي للنموذج.

تستخدم الخوارزمية عادةً المطابقة الثنائية لتقييم تشابه الرموز، وغالبًا ما تحسب تشابه جيب التمام بين مفاتيح الرموز في طبقات الانتباه. ويتم دمج الرموز التي تشترك في معلومات بصرية أو دلالية متشابهة للغاية — غالبًا عن طريق حساب متوسط خصائصها. وهذا يضمن الحفاظ على المعلومات المكانية أو السياقية الأساسية مع التخلص من الحمل الحسابي غير الضروري، مما يسمح لأطر عمل مثل PyTorch معالجة نماذج الرؤية المعقدة بشكل أسرع بكثير.

التطبيقات العملية لدمج الرموز

أصبح دمج الرموز استراتيجية تحسين حاسمة لنشر البنى الثقيلة القائمة على الانتباه في البيئات ذات الموارد الحاسوبية المحدودة.

  1. الذكاء الاصطناعي التوليدي وتوليف الصور: في نماذج الانتشار الشائعة لتحويل النص إلى صورة، يُستخدم ToMe بشكل متكرر لتسريع عملية توليد الصور. من خلال دمج الرموز الخاصة بالخلفية أو الرموز منخفضة التفاصيل، تتطلب عملية التوليد خطوات أقل، مما يوفر GPU هائلة GPU و يقلل من زمن الاستجابة للمستخدمين النهائيين الذين يعتمدون على النماذج التوليدية. يمكنك معرفة المزيد عن عمليات الانتشار في الأبحاث الأساسية على arXiv.
  2. عمليات نشر الذكاء الاصطناعي على الحافة: من المعروف أن نشر النماذج الضخمة مثل نموذج Segment Anything Model (SAM) على الأجهزة المحمولة أمر صعب للغاية بسبب قيود الذاكرة. يساعد ToMe في تقليص حجم الذاكرة بشكل ديناميكي، مما يسمح بتشغيل مهام تقسيم الصور المعقدة على أجهزة الحافة . في السيناريوهات التي تكون فيها السرعة المطلقة أمرًا حاسمًا، غالبًا ما يلجأ المهندسون إلى بنى مُحسّنة أصلاً وخالية من آلية الانتباه مثل Ultralytics من أجل استدلال حافة أسرع وشامل.

Python : حساب تشابه الرموز

على الرغم من أن دمج ToMe في بنية كاملة يتطلب تعديل كتل الانتباه، فإن المفهوم الأساسي يعتمد على العثور على الرموز المتشابهة. يوضح PyTorch التالي PyTorch كيف يمكن حساب تشابه جيب التمام بين مجموعة من الرموز لتحديد أي منها مرشحة للدمج.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

تتطلب مسارات التعلم الآلي الحديثة تحقيق توازن دقيق بين الدقة والسرعة. وسواء كنت تستخدم تقنية دمج الرموز (Token Merging) لتحسين نموذج ViT مخصص، أو تعتمد على الكفاءات المتطورة لنظام YOLO26، فإن Ultralytics تعمل على تبسيط إدارة تدفقات العمل المعقدة هذه بشكل كبير. توفر المنصة نظامًا بيئيًا سهل الاستخدام لتعليق البيانات تلقائيًا، والتدريب السحابي السلس، و نشر النماذج بشكل موثوق عبر بيئات متنوعة لأجهزة الحوسبة الطرفية. تعتمد المؤسسات التي تعمل على توسيع مبادرات الرؤية الحاسوبية الخاصة بها على هذه الأدوات لدفع النماذج المتطورة إلى مرحلة الإنتاج بشكل موثوق وفعال.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة