Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

رؤية مامبا

اكتشف Vision Mamba، وهو بديل ذو تعقيد خطي لـ Transformers. تعرف على كيفية تعزيز نماذج الفضاء الحالة (SSMs) لكفاءة الرؤية الحاسوبية عالية الدقة.

يمثل Vision Mamba تحولًا مهمًا في بنى التعلم العميق للرؤية الحاسوبية، حيث يبتعد عن هيمنة الآليات القائمة على الانتباه الموجودة في Transformers. وهو عبارة عن تعديل لبنية Mamba —التي صُممت في الأصل من أجل نمذجة تسلسلية فعالة في معالجة اللغة الطبيعية—مصممة خصيصًا للمهام البصرية. من خلال الاستفادة من نماذج الفضاء الحالة (SSMs)، يقدم Vision Mamba بديلاً خطيًا للتعقيد التربيعي لطبقات الانتباه الذاتي التقليدية. وهذا يسمح له بمعالجة الصور عالية الدقة بشكل أكثر كفاءة، مما يجعله ذا قيمة خاصة للتطبيقات التي تكون فيها الموارد الحاسوبية محدودة أو حيث يجب التقاط التبعيات بعيدة المدى في البيانات المرئية دون الحاجة إلى مساحة الذاكرة الكبيرة التي تتميز بها Vision Transformers (ViT).

كيف تعمل Vision Mamba

يكمن جوهر Vision Mamba في مفهوم المسح الانتقائي للبيانات. تعالج الشبكات العصبية التلافيفية التقليدية (CNNs) الصور باستخدام نوافذ منزلقة محلية، وهي ممتازة للكشف عن القوام والحواف ولكنها تعاني من السياق العام. على العكس من ذلك، تستخدم المحولات الانتباه العام لربط كل بكسل (أو رقعة) بكل بكسل آخر، مما يوفر سياقًا ممتازًا ولكنه يصبح مكلفًا من الناحية الحسابية مع زيادة دقة الصورة. Vision Mamba يسد هذه الفجوة عن طريق تسوية الصور في تسلسلات ومعالجتها باستخدام مساحات حالة انتقائية. وهذا يسمح للنموذج بضغط المعلومات المرئية إلى حالة ذات حجم ثابت، مع الاحتفاظ بالتفاصيل ذات الصلة على مسافات طويلة في تسلسل الصور مع التخلص من الضوضاء غير ذات الصلة.

تتضمن البنية عادةً آلية مسح ثنائية الاتجاه. نظرًا لأن الصور عبارة عن هياكل ثنائية الأبعاد وليست متسلسلة بطبيعتها مثل النص، فإن Vision Mamba يقوم بمسح أجزاء الصورة في الاتجاهين الأمامي والخلفي (وأحيانًا في مسارات متنوعة) لضمان فهم العلاقات المكانية بغض النظر عن ترتيب المسح. يتيح هذا النهج للنموذج تحقيق حقول استقبالية شاملة مشابهة لـ Transformers ولكن مع سرعات استدلال أسرع واستخدام أقل للذاكرة، وغالبًا ما ينافس أحدث النتائج في معايير مثل ImageNet.

تطبيقات واقعية

كفاءة Vision Mamba تجعلها مناسبة للغاية للبيئات المحدودة الموارد والمهام عالية الدقة.

  • تحليل الصور الطبية: في مجالات مثل الأشعة، يتطلب تحليل صور الرنين المغناطيسي أو الأشعة المقطعية عالية الدقة الكشف عن حالات شاذة دقيقة قد تكون بعيدة مكانياً داخل صورة كبيرة. يمكن لـ Vision Mamba معالجة ملفات تحليل الصور الطبية الكبيرة هذه بفعالية دون الاختناقات في الذاكرة التي غالباً ما تعاني منها محولات Transformers القياسية، مما يساعد الأطباء في تحديد الأورام أو الكسور بدقة عالية.
  • الملاحة المستقلة على الأجهزة الطرفية: تعتمد السيارات ذاتية القيادة والطائرات بدون طيار على الحوسبة الطرفية لمعالجة موجات الفيديو في الوقت الفعلي . يتيح التوسع الخطي لـ Vision Mamba لهذه الأنظمة معالجة مدخلات الفيديو ذات معدل الإطارات العالي من أجل الكشف عن الكائنات والتجزئة الدلالية بكفاءة أكبر من نماذج Transformer الثقيلة، مما يضمن أوقات رد فعل أسرع لاتخاذ القرارات الحاسمة المتعلقة بالسلامة.

رؤية مامبا مقابل رؤية ترانسفورمرز (ViT)

في حين أن كلا البنيتين تهدفان إلى التقاط السياق العالمي، إلا أنهما تختلفان اختلافًا جوهريًا في طريقة عملهما.

  • محول الرؤية (ViT): يعتمد على آلية الانتباه، التي تحسب العلاقة بين كل زوج من بقع الصورة. وينتج عن ذلك تعقيد تربيعي ($O(N^2)$)، مما يعني أن مضاعفة حجم الصورة يؤدي إلى مضاعفة تكلفة الحساب أربع مرات.
  • Vision Mamba: يستخدم نماذج الحالة الفضائية (SSMs) لمعالجة الرموز المرئية بشكل خطي ($O(N)$). يحافظ على حالة تشغيلية يتم تحديثها عند رؤية بقع جديدة، مما يسمح له بالتوسع بشكل أفضل مع دقة أعلى مع الحفاظ على دقة مماثلة.

مثال: سير عمل الاستدلال الفعال

في حين أن Vision Mamba هي بنية محددة، فإن مبادئها المتعلقة بالكفاءة تتوافق مع أهداف النماذج الحديثة في الوقت الحقيقي مثل Ultralytics YOLO26. يمكن للمستخدمين الذين يبحثون عن مهام رؤية محسّنة الاستفادة من منصة Ultralytics للتدريب والنشر. فيما يلي مثال يستخدم ultralytics حزمة لتشغيل الاستدلال، مما يوضح سهولة استخدام نماذج الرؤية عالية التحسين.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

المزايا الرئيسية والتوقعات المستقبلية

يشير إدخال البنى القائمة على Mamba في الرؤية الحاسوبية إلى تحرك نحو ذكاء اصطناعي أكثر وعياً بالأجهزة. من خلال تقليل العبء الحسابي المرتبط بالاهتمام العالمي، يفتح الباحثون الباب أمام نشر وكلاء ذكاء اصطناعي متقدمين على أجهزة أصغر حجماً.

تسلط الأبحاث الحديثة، مثل ورقة VMamba والتطورات في التعلم العميق الفعال، الضوء على إمكانية استبدال هذه النماذج بالبنى الأساسية التقليدية في مهام تتراوح من فهم الفيديو إلى الكشف عن الكائنات ثلاثية الأبعاد. مع استمرار المجتمع في تحسين استراتيجيات المسح والتكامل مع الطبقات التلافيفية، من المتوقع أن تصبح Vision Mamba مكونًا قياسيًا في صندوق أدوات التعلم العميق إلى جانب CNNs و Transformers.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن