استكشف الكشف عن الأجسام ثلاثية الأبعاد: كيف يقوم كل من LiDAR والسحب النقطية والتعلم العميق بإنشاء مربعات حدودية ثلاثية الأبعاد دقيقة للمركبات ذاتية القيادة والروبوتات والواقع المعزز.
الكشف عن الأجسام ثلاثية الأبعاد هي تقنية متطورة الرؤية الحاسوبية (CV) المتطورة التي تحدد وتصنّف الأجسام وتحدّد مواقعها ضمن فضاء ثلاثي الأبعاد. على عكس التقنية التقليدية ثنائية الأبعاد التقليدية ثنائية الأبعاد، والتي ترسم مربعًا مستطيلًا مسطحًا حول جسم ما على مستوى الصورة، فإن الكشف عن الأجسام ثلاثية الأبعاد يقدّر الكشف عن الأجسام ثلاثي الأبعاد مربعًا محددًا ثلاثي الأبعاد، وهو عبارة عن مربع محدد بإحداثيات مركزه (س، ص، ض), أبعاده (الطول والعرض والارتفاع) واتجاهه (زاوية الاتجاه). تتيح هذه الإمكانية لأنظمة الذكاء الاصطناعي إدراك حجم ومسافة ووضعية الأجسام في العالم الحقيقي، وهو أمر ضروري للتفاعل المادي و والملاحة.
لإدراك العمق والحجم، تعتمد نماذج اكتشاف الأجسام ثلاثية الأبعاد على مصادر البيانات التي تلتقط الهندسة المكانية. بينما تعتمد الطرق ثنائية الأبعاد تعتمد فقط على كثافة البكسل، فإن الطرق ثلاثية الأبعاد تعالج البيانات من أجهزة الاستشعار المتقدمة:
تعالج البنى المتخصصة هذه البيانات. على سبيل المثال, بوينت نت تعالج السحب النقطية الخام مباشرة، بينما تعالج فوكسل نت تقسم المساحة ثلاثية الأبعاد إلى شبكات حجمية (فوكسل) لتطبيق عمليات التلافيف. تُخرج هذه النماذج الإحداثيات الدقيقة ثلاثية الأبعاد واتجاه الأجسام, مما يمكّن الآلات من فهم ليس فقط ماهية الشيء، ولكن أيضًا مكان وجوده في في العالم المادي.
يكمن التمييز الأساسي في البُعد المكاني والمعلومات المقدمة:
بالنسبة للتطبيقات التي تتطلب وعيًا مكانيًا جزئيًا جزئيًا دون الحاجة إلى حمل كامل ثلاثي الأبعاد, الصندوق المحيط الموجه (OBB) بمثابة كحل وسط، حيث يتنبأ بالمربعات المحدودة المدورة ثنائية الأبعاد لتلائم الأجسام مثل السفن أو المركبات في المناظر الجوية بشكل أفضل.
اكتشاف الأجسام ثلاثية الأبعاد هو محرك الإدراك للصناعات التي تتفاعل مع العالم المادي:
بينما YOLO11 هو في المقام الأول كاشف ثنائي الأبعاد، فإنه يلعب دورًا حاسمًا في العديد من خطوط أنابيب الكشف ثلاثية الأبعاد. هناك نهج شائع، يُعرف باسم "الكشف القائم على الإطار". يستخدم نموذجًا ثنائي الأبعاد عالي السرعة لتحديد منطقة الاهتمام في الصورة. ثم يتم بثق هذا المربع ثنائي الأبعاد في الفضاء ثلاثي الأبعاد لاقتصاص السحابة النقطية، مما يقلل بشكل كبير من مساحة البحث للنموذج ثلاثي الأبعاد.
يوضح المثال التالي كيفية تنفيذ خطوة الكشف الأولي ثنائية الأبعاد باستخدام Ultralytics YOLO11 والتي من شأنها أن بمثابة اقتراح لوحدة الرفع ثلاثية الأبعاد:
from ultralytics import YOLO
# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")
# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")
# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
for box in result.boxes:
print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")