استكشف الكشف عن الأجسام ثلاثية الأبعاد: كيف يقوم كل من LiDAR والسحب النقطية والتعلم العميق بإنشاء مربعات حدودية ثلاثية الأبعاد دقيقة للمركبات ذاتية القيادة والروبوتات والواقع المعزز.
الكشف عن الأجسام ثلاثية الأبعاد هو تقنية متقدمة للرؤية الحاسوبية (CV) لتحديد الأجسام وتحديد مواقعها في فضاء ثلاثي الأبعاد. على عكس الكشف عن الأجسام ثنائية الأبعاد، الذي يعمل على الصور المسطحة، يوفر الكشف ثلاثي الأبعاد معلومات عمق مهمة، مما يسمح للنظام بفهم حجم الجسم في العالم الحقيقي وموقعه واتجاهه. تتيح هذه القدرة إدراكاً مكانياً أعمق وأدق بكثير، وهو أمر ضروري للعديد من تطبيقات الذكاء الاصطناعي الحديثة.
تعتمد أنظمة الكشف عن الأجسام ثلاثية الأبعاد عادةً على أجهزة استشعار متخصصة لالتقاط هندسة البيئة المحيطة. وتشمل مصادر البيانات الشائعة ما يلي:
وبمجرد التقاط هذه البيانات ثلاثية الأبعاد، تقوم نماذج التعلّم العميق المتخصصة بتحليلها لتحديد الأجسام وتحديد مواقعها. صُممت نماذج مثل VoxelNet و VoteNet لمعالجة السحب النقطية غير المهيكلة أو شبكات فوكسل (المكافئات ثلاثية الأبعاد للبكسل) للتنبؤ بالمربعات المحددة ثلاثية الأبعاد حول الأجسام.
يتمثل الفرق الأساسي بين الكشف عن الأجسام ثنائية الأبعاد وثلاثية الأبعاد في بُعد المكان الذي تعمل فيه. يحدد الاكتشاف ثنائي الأبعاد موقع الجسم على صورة مسطحة باستخدام مربع مستطيل محدد بإحداثيات X و Y. ومع ذلك، فإنه يفتقر إلى إدراك العمق، مما يجعل من الصعب الحكم على الحجم أو المسافة الحقيقية للجسم. على سبيل المثال، في صورة ثنائية الأبعاد، قد تظهر شاحنة كبيرة بعيدة بنفس حجم سيارة صغيرة أقرب بكثير في صورة ثنائية الأبعاد.
يتغلب الكشف عن الأجسام ثلاثية الأبعاد على هذا القيد من خلال إضافة المحور Z للعمق. وهذا يسمح لها بتحديد ليس فقط ماهية الجسم ومكانه في الإطار، ولكن أيضًا تحديد بُعده وأبعاده المادية واتجاهه في الفضاء ثلاثي الأبعاد. على الرغم من أن هذا يوفر فهمًا أكثر ثراءً للبيئة، إلا أنه يأتي أيضًا بتكاليف حسابية أعلى ومتطلبات بيانات أكثر تعقيدًا.
المعلومات المكانية المفصلة التي يوفرها الكشف عن الأجسام ثلاثية الأبعاد لا تقدر بثمن في العديد من المجالات.
على الرغم من أن اكتشاف الأجسام ثلاثية الأبعاد أكثر تعقيدًا واستهلاكًا للموارد من الطرق ثنائية الأبعاد، إلا أن قدرتها على توفير فهم مكاني دقيق يجعلها تقنية لا غنى عنها للجيل القادم من الأنظمة الذكية.