اكتشف Vision Mamba، وهو بديل ذو تعقيد خطي لـ Transformers. تعرف على كيفية تعزيز نماذج الفضاء الحالة (SSMs) لكفاءة الرؤية الحاسوبية عالية الدقة.
يمثل Vision Mamba تحولًا مهمًا في بنى التعلم العميق للرؤية الحاسوبية، حيث يبتعد عن هيمنة الآليات القائمة على الانتباه الموجودة في Transformers. وهو عبارة عن تعديل لبنية Mamba —التي صُممت في الأصل من أجل نمذجة تسلسلية فعالة في معالجة اللغة الطبيعية—مصممة خصيصًا للمهام البصرية. من خلال الاستفادة من نماذج الفضاء الحالة (SSMs)، يقدم Vision Mamba بديلاً خطيًا للتعقيد التربيعي لطبقات الانتباه الذاتي التقليدية. وهذا يسمح له بمعالجة الصور عالية الدقة بشكل أكثر كفاءة، مما يجعله ذا قيمة خاصة للتطبيقات التي تكون فيها الموارد الحاسوبية محدودة أو حيث يجب التقاط التبعيات بعيدة المدى في البيانات المرئية دون الحاجة إلى مساحة الذاكرة الكبيرة التي تتميز بها Vision Transformers (ViT).
يكمن جوهر Vision Mamba في مفهوم المسح الانتقائي للبيانات. تعالج الشبكات العصبية التلافيفية التقليدية (CNNs) الصور باستخدام نوافذ منزلقة محلية، وهي ممتازة للكشف عن القوام والحواف ولكنها تعاني من السياق العام. على العكس من ذلك، تستخدم المحولات الانتباه العام لربط كل بكسل (أو رقعة) بكل بكسل آخر، مما يوفر سياقًا ممتازًا ولكنه يصبح مكلفًا من الناحية الحسابية مع زيادة دقة الصورة. Vision Mamba يسد هذه الفجوة عن طريق تسوية الصور في تسلسلات ومعالجتها باستخدام مساحات حالة انتقائية. وهذا يسمح للنموذج بضغط المعلومات المرئية إلى حالة ذات حجم ثابت، مع الاحتفاظ بالتفاصيل ذات الصلة على مسافات طويلة في تسلسل الصور مع التخلص من الضوضاء غير ذات الصلة.
تتضمن البنية عادةً آلية مسح ثنائية الاتجاه. نظرًا لأن الصور عبارة عن هياكل ثنائية الأبعاد وليست متسلسلة بطبيعتها مثل النص، فإن Vision Mamba يقوم بمسح أجزاء الصورة في الاتجاهين الأمامي والخلفي (وأحيانًا في مسارات متنوعة) لضمان فهم العلاقات المكانية بغض النظر عن ترتيب المسح. يتيح هذا النهج للنموذج تحقيق حقول استقبالية شاملة مشابهة لـ Transformers ولكن مع سرعات استدلال أسرع واستخدام أقل للذاكرة، وغالبًا ما ينافس أحدث النتائج في معايير مثل ImageNet.
كفاءة Vision Mamba تجعلها مناسبة للغاية للبيئات المحدودة الموارد والمهام عالية الدقة.
في حين أن كلا البنيتين تهدفان إلى التقاط السياق العالمي، إلا أنهما تختلفان اختلافًا جوهريًا في طريقة عملهما.
في حين أن Vision Mamba هي بنية محددة، فإن مبادئها المتعلقة بالكفاءة تتوافق مع أهداف النماذج الحديثة في الوقت الحقيقي
مثل Ultralytics YOLO26. يمكن للمستخدمين الذين يبحثون عن
مهام رؤية محسّنة الاستفادة من منصة Ultralytics للتدريب والنشر.
فيما يلي مثال يستخدم ultralytics حزمة لتشغيل الاستدلال، مما يوضح سهولة
استخدام نماذج الرؤية عالية التحسين.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt") # 'n' for nano, emphasizing efficiency
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
يشير إدخال البنى القائمة على Mamba في الرؤية الحاسوبية إلى تحرك نحو ذكاء اصطناعي أكثر وعياً بالأجهزة. من خلال تقليل العبء الحسابي المرتبط بالاهتمام العالمي، يفتح الباحثون الباب أمام نشر وكلاء ذكاء اصطناعي متقدمين على أجهزة أصغر حجماً.
تسلط الأبحاث الحديثة، مثل ورقة VMamba والتطورات في التعلم العميق الفعال، الضوء على إمكانية استبدال هذه النماذج بالبنى الأساسية التقليدية في مهام تتراوح من فهم الفيديو إلى الكشف عن الكائنات ثلاثية الأبعاد. مع استمرار المجتمع في تحسين استراتيجيات المسح والتكامل مع الطبقات التلافيفية، من المتوقع أن تصبح Vision Mamba مكونًا قياسيًا في صندوق أدوات التعلم العميق إلى جانب CNNs و Transformers.