Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

SLAM البصري (التحديد المتزامن للموقع ورسم الخرائط)

اكتشف كيف تتيح تقنية Visual SLAM إمكانية رسم الخرائط ذاتيًا. تعلم كيفية تحسين الدقة باستخدام Ultralytics ونشر الحلول عبر Ultralytics .

تعد تقنية Visual SLAM (التحديد المتزامن للموقع ورسم الخرائط) إحدى التقنيات الأساسية في مجال الرؤية الحاسوبية التي تمكّن جهازًا ما، مثل الروبوت أو الجهاز المحمول، من رسم خريطة لبيئة مجهولة وتحديد موقعه داخل تلك المساحة في آن واحد، وذلك بالاعتماد فقط على مدخلات الكاميرا. على عكس أنظمة SLAM التقليدية التي تعتمد على مستشعرات ليزر باهظة الثمن ، تستخدم تقنية Visual SLAM كاميرات أحادية العين أو ستيريو أو RGB-D قياسية. من خلال استخراج وتتبع السمات البصرية عبر إطارات الصور المتتالية، يحسب النظام مسار الكاميرا بينما يبني تدريجيًا سحابة نقطية ثلاثية الأبعاد أو خريطة كثيفة لمحيطها. هذه التقنية أساسية لتمكين الملاحة الذاتية والوعي المكاني في الآلات.

كيفية عمل تقنية Visual SLAM

يتكون مسار عمل Visual SLAM النموذجي من مكونين رئيسيين: الواجهة الأمامية والواجهة الخلفية. تتولى الواجهة الأمامية معالجة بيانات المستشعرات، حيث تقوم باستخراج السمات البصرية (تحديد الزوايا أو الحواف المميزة) ومطابقة هذه السمات بين الإطارات لتقدير حركة الكاميرا بمرور الوقت. تأخذ الواجهة الخلفية بيانات قياس المسافات هذه وتنفذ خوارزميات التحسين مثل تعديل الحزمة لتصحيح الانحراف وتحسين كل من خريطة البيئة والوضعية المقدرة للكاميرا.

أدت الاختراقات الحديثة التي حدثت في عامي 2024 و2025 إلى تحول النموذج من الميزات التقليدية المصممة يدويًّا — مثل تلك المستخدمة في الأطر القديمة مثل ORB-SLAM3— إلى منهجيات التعلم العميق. تستخدم الأنظمة الحديثة الآن الشبكات العصبية للتدفق البصري الكثيف ومطابقة الميزات، مما يجعلها شديدة المرونة في مواجهة ضبابية الحركة والبيئات منخفضة النسيج. بالإضافة إلى ذلك، فإن تقنيات العرض المبتكرة التي تدمج تقنية 3D Gaussian Splatting و حقول الإشعاع العصبي (NeRFs) تتيح رسم خرائط كثيفة واقعية في الوقت الفعلي تلتقط التفاصيل الهندسية المعقدة بشكل أفضل بكثير من سحب النقاط القياسية.

تقنية SLAM البصرية مقابل تقنية LiDAR SLAM مقابل تتبع الأجسام

إن فهم الفروق بين تقنيات تحديد المواقع وتقنيات التتبع أمر ضروري لتطبيق الحل المناسب :

  • تقنية SLAM البصرية مقابل تقنية LiDAR SLAM: في حين تعتمد تقنية SLAM البصرية على مستشعرات كاميرا منخفضة التكلفة لاستشعار التفاصيل البصرية الغنية، تستخدم تقنية LiDAR SLAM أشعة الليزر لقياس المسافات المادية بدقة. تتميز تقنية LiDAR بدقة عالية، لكنها مكلفة وتستهلك طاقة كبيرة، في حين أن تقنية SLAM البصرية تتميز بفعالية التكلفة وتوفر معلومات عن الألوان، لكنها قد تواجه صعوبات في ظروف الإضاءة السيئة.
  • تقنية SLAM البصرية مقابل تتبع الكائنات: يعمل تتبع الكائنات على عزل كائنات محددة وتتبع حركتها عبر إطارات الفيديو. أما تقنية SLAM البصرية، فإنها تتعقب حركة الكاميرا بالنسبة للبيئة الثابتة لإنشاء خريطة. ومع ذلك، فإن هذين المفهومين يندمجان في تقنية SLAM الدلالية، حيث تقوم نماذج الكشف عن الكائنات بتحديد الكائنات الديناميكية لاستبعادها بشكل مقصود من الخريطة الثابتة.

تطبيقات واقعية

تُعد تقنية SLAM البصرية جزءًا لا يتجزأ من العوامل الحديثة القائمة على الذكاء الاصطناعي و أنظمة الحوسبة المكانية.

  • الروبوتات والطائرات بدون طيار ذاتية التشغيل: تستخدم روبوتات التوصيل والطائرات بدون طيار تقنية Visual SLAM للتنقل في البيئات التي لا تغطيها شبكة GPS ، مثل المستودعات أو الشوارع الحضرية الضيقة. ومن خلال إنشاء خرائط في الوقت الفعلي، يمكنها تخطيط مسارها وتجنب العوائق بشكل ذاتي.
  • الواقع المعزز (AR) والواقع الافتراضي (VR): تعتمد النظارات الذكية المتوفرة في الأسواق بشكل كبير على تقنية Visual SLAM من أجل فهم الشكل الهندسي للغرفة. وهذا يتيح لأنظمة الواقع المعزز تثبيت الكائنات الرقمية بدقة، مثل شاشة افتراضية، على الأسطح المادية بحيث تظل ثابتة أثناء تحرك المستخدم.
  • أنظمة الملاحة المساعدة: تُستخدم التطورات الحديثة في تقنية SLAM الدلالية المدعومة بالتعلم العميق لإنشاء أجهزة ملاحة قابلة للارتداء مخصصة للأشخاص ذوي الإعاقة البصرية، مما يضمن توجيهًا آمنًا وفي الوقت الفعلي للتغلب على العوائق المادية المتغيرة.

دمج تقنية SLAM الدلالية مع YOLO26

يتمثل أحد أكبر التحديات في تقنية Visual SLAM في التعامل مع البيئات الديناميكية التي تؤدي فيها الأجسام المتحركة إلى تشويه الخريطة. وتحل تقنية Semantic SLAM هذه المشكلة من خلال دمج مسار عمل تقنية SLAM التقليدية مع نماذج الرؤية عالية السرعة. ومن خلال استخدام Ultralytics لتحديد الأجزاء أو الكشف عن الأجسام ، يمكن للنظام تصنيف المشهد من الناحية الدلالية وتصفية الأجسام المتحركة، مما يؤدي إلى تحسين دقة تحديد الموقع بشكل كبير.

يوضح مقطع الكود أدناه كيفية استخدام YOLO26 لتحديد إحداثيات الكائنات المتحركة (مثل الأشخاص والسيارات) بحيث يمكن لمحرك مطابقة الميزات في SLAM تجاهلها بشكل صريح:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

من خلال الاستفادة من أجهزة الذكاء الاصطناعي المتطورة مثل NVIDIA ودمج النماذج عبر Ultralytics يمكن للمطورين تدريب ونشر خوارزميات الرؤية خفيفة الوزن مباشرةً جنبًا إلى جنب مع مسارات SLAM. لمزيد من الاستكشاف حول بنى الخرائط الذاتية، يرجى الرجوع إلى المراجع الحديثة على IEEE Xplore أو arXiv، واكتشاف كيفية تحسين مسارات الرؤية المستمرة في Ultralytics .

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة