استكشف الكشف عن الأجسام ثلاثية الأبعاد: كيف يقوم كل من LiDAR والسحب النقطية والتعلم العميق بإنشاء مربعات حدودية ثلاثية الأبعاد دقيقة للمركبات ذاتية القيادة والروبوتات والواقع المعزز.
الكشف عن الأجسام ثلاثية الأبعاد هو تقنية متقدمة لرؤية الكمبيوتر (CV) تعمل على تحديد وتصنيف وتحديد مواقع الأجسام في بيئة ثلاثية الأبعاد. على عكس الكشف التقليدي عن الأجسام ثنائية الأبعاد، الذي يرسم مربعًا مستطيلًا مسطحًا حول عنصر ما على مستوى الصورة ، فإن الكشف عن الأجسام ثلاثية الأبعاد يقدر مكعبًا مكانيًا. يتم تحديد هذا الحجم بواسطة سبعة معلمات رئيسية: إحداثيات المركز (x، y، z)، والأبعاد المادية (الطول، العرض، الارتفاع)، والاتجاه (زاوية التوجه). تسمح هذه البيانات المكانية الغنية لأنظمة الذكاء الاصطناعي (AI) بإدراك الحجم الحقيقي والمسافة ووضع الكائنات بالنسبة للمستشعر، مما يسد الفجوة بين الإدراك الرقمي والتفاعل المادي.
لبناء فهم حجمي للعالم، تتطلب نماذج الكشف ثلاثية الأبعاد بيانات إدخال تحتوي على معلومات هندسية . في حين أن التعرف القياسي على الصور يعتمد على كثافة البكسل، فإن الطرق ثلاثية الأبعاد غالبًا ما تستخدم دمج المستشعرات لدمج البيانات المرئية مع قياسات العمق.
تشمل مصادر البيانات الأولية ما يلي:
تجعل القدرة على إدراك العمق والحجم من اكتشاف الأجسام ثلاثية الأبعاد محرك الإدراك للصناعات التي تتفاعل مع العالم المادي.
يكمن الفرق بين هاتين التقنيتين في أبعاد ناتجهما وحالات الاستخدام المقصودة .
بالنسبة للسيناريوهات التي تتطلب بيانات توجيهية أكثر من مجرد مربع بسيط ولكنها تتطلب حسابًا أقل من الحساب ثلاثي الأبعاد الكامل، يعد الكشف عن المربع المحيط الموجه (OBB) حلاً وسطًا فعالاً. يتم دعم OBB بالكامل بواسطة YOLO26، أحدث Ultralytics مما يسمح بالكشف عن الدوران في الصور الجوية أو خطوط التصنيع المعقدة.
في حين أن الكشف ثلاثي الأبعاد الكامل يتطلب غالبًا هياكل متخصصة مثل VoxelNet أو PointPillars، فإن أجهزة الكشف ثنائية الأبعاد عالية السرعة تلعب دورًا مهمًا في خطوط الإنتاج ثلاثية الأبعاد "القائمة على المخروط". في سير العمل هذا، نموذج مثل YOLO11 (أو YOLO26 الأحدث) يكتشف الكائن في الصورة ثنائية الأبعاد. ثم يتم بثق هذا المربع ثنائي الأبعاد في الفضاء ثلاثي الأبعاد لعزل الجزء ذي الصلة من سحابة نقاط LiDAR ، مما يقلل بشكل كبير من منطقة البحث عن النموذج ثلاثي الأبعاد.
يوضح المثال التالي كيفية إجراء الاستدلال باستخدام نموذج OBB باستخدام
ultralytics حزمة، التي توفر الكشف المدرك للدوران والذي غالبًا ما يستخدم كمرحلة تمهيدية للتحليل ثلاثي الأبعاد الكامل
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)