مسرد المصطلحات

رؤية مامبا

اكتشف Vision Mamba، وهو بديل ذو تعقيد خطي لـ Transformers. تعرف على كيفية تعزيز نماذج الفضاء الحالة (SSMs) لكفاءة الرؤية الحاسوبية عالية الدقة.

يمثل Vision Mamba تحولًا مهمًا في بنى التعلم العميق للرؤية الحاسوبية، حيث يبتعد عن هيمنة الآليات القائمة على الانتباه الموجودة في Transformers. وهو عبارة عن تعديل لبنية Mamba —التي صُممت في الأصل من أجل نمذجة تسلسلية فعالة في معالجة اللغة الطبيعية—مصممة خصيصًا للمهام البصرية. من خلال الاستفادة من نماذج الفضاء الحالة (SSMs)، يقدم Vision Mamba بديلاً خطيًا للتعقيد التربيعي لطبقات الانتباه الذاتي التقليدية. وهذا يسمح له بمعالجة الصور عالية الدقة بشكل أكثر كفاءة، مما يجعله ذا قيمة خاصة للتطبيقات التي تكون فيها الموارد الحاسوبية محدودة أو حيث يجب التقاط التبعيات بعيدة المدى في البيانات المرئية دون الحاجة إلى مساحة الذاكرة الكبيرة التي تتميز بها Vision Transformers (ViT).

كيف تعمل Vision Mamba

يكمن جوهر Vision Mamba في مفهوم المسح الانتقائي للبيانات. تعالج الشبكات العصبية التلافيفية التقليدية (CNNs) الصور باستخدام نوافذ منزلقة محلية، وهي ممتازة للكشف عن القوام والحواف ولكنها تعاني من السياق العام. على العكس من ذلك، تستخدم المحولات الانتباه العام لربط كل بكسل (أو رقعة) بكل بكسل آخر، مما يوفر سياقًا ممتازًا ولكنه يصبح مكلفًا من الناحية الحسابية مع زيادة دقة الصورة. Vision Mamba يسد هذه الفجوة عن طريق تسوية الصور في تسلسلات ومعالجتها باستخدام مساحات حالة انتقائية. وهذا يسمح للنموذج بضغط المعلومات المرئية إلى حالة ذات حجم ثابت، مع الاحتفاظ بالتفاصيل ذات الصلة على مسافات طويلة في تسلسل الصور مع التخلص من الضوضاء غير ذات الصلة.

تتضمن البنية عادةً آلية مسح ثنائية الاتجاه. نظرًا لأن الصور عبارة عن هياكل ثنائية الأبعاد وليست متسلسلة بطبيعتها مثل النص، فإن Vision Mamba يقوم بمسح أجزاء الصورة في الاتجاهين الأمامي والخلفي (وأحيانًا في مسارات متنوعة) لضمان فهم العلاقات المكانية بغض النظر عن ترتيب المسح. يتيح هذا النهج للنموذج تحقيق حقول استقبالية شاملة مشابهة لـ Transformers ولكن مع سرعات استدلال أسرع واستخدام أقل للذاكرة، وغالبًا ما ينافس أحدث النتائج في معايير مثل ImageNet.

تطبيقات واقعية

كفاءة Vision Mamba تجعلها مناسبة للغاية للبيئات المحدودة الموارد والمهام عالية الدقة.

تحليل الصور الطبية: في مجالات مثل الأشعة، يتطلب تحليل صور الرنين المغناطيسي أو الأشعة المقطعية عالية الدقة الكشف عن حالات شاذة دقيقة قد تكون بعيدة مكانياً داخل صورة كبيرة. يمكن لـ Vision Mamba معالجة ملفات تحليل الصور الطبية الكبيرة هذه بفعالية دون الاختناقات في الذاكرة التي غالباً ما تعاني منها محولات Transformers القياسية، مما يساعد الأطباء في تحديد الأورام أو الكسور بدقة عالية.
الملاحة المستقلة على الأجهزة الطرفية: تعتمد السيارات ذاتية القيادة والطائرات بدون طيار على الحوسبة الطرفية لمعالجة موجات الفيديو في الوقت الفعلي . يتيح التوسع الخطي لـ Vision Mamba لهذه الأنظمة معالجة مدخلات الفيديو ذات معدل الإطارات العالي من أجل الكشف عن الكائنات والتجزئة الدلالية بكفاءة أكبر من نماذج Transformer الثقيلة، مما يضمن أوقات رد فعل أسرع لاتخاذ القرارات الحاسمة المتعلقة بالسلامة.