Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الكشف عن الكائنات ثلاثية الأبعاد

استكشف الكشف عن الأجسام ثلاثية الأبعاد: كيف يقوم كل من LiDAR والسحب النقطية والتعلم العميق بإنشاء مربعات حدودية ثلاثية الأبعاد دقيقة للمركبات ذاتية القيادة والروبوتات والواقع المعزز.

الكشف عن الأجسام ثلاثية الأبعاد هو تقنية متقدمة لرؤية الكمبيوتر (CV) تعمل على تحديد وتصنيف وتحديد مواقع الأجسام في بيئة ثلاثية الأبعاد. على عكس الكشف التقليدي عن الأجسام ثنائية الأبعاد، الذي يرسم مربعًا مستطيلًا مسطحًا حول عنصر ما على مستوى الصورة ، فإن الكشف عن الأجسام ثلاثية الأبعاد يقدر مكعبًا مكانيًا. يتم تحديد هذا الحجم بواسطة سبعة معلمات رئيسية: إحداثيات المركز (x، y، z)، والأبعاد المادية (الطول، العرض، الارتفاع)، والاتجاه (زاوية التوجه). تسمح هذه البيانات المكانية الغنية لأنظمة الذكاء الاصطناعي (AI) بإدراك الحجم الحقيقي والمسافة ووضع الكائنات بالنسبة للمستشعر، مما يسد الفجوة بين الإدراك الرقمي والتفاعل المادي.

كيف يعمل الكشف عن الكائنات ثلاثية الأبعاد

لبناء فهم حجمي للعالم، تتطلب نماذج الكشف ثلاثية الأبعاد بيانات إدخال تحتوي على معلومات هندسية . في حين أن التعرف القياسي على الصور يعتمد على كثافة البكسل، فإن الطرق ثلاثية الأبعاد غالبًا ما تستخدم دمج المستشعرات لدمج البيانات المرئية مع قياسات العمق.

تشمل مصادر البيانات الأولية ما يلي:

  • LiDAR (الكشف عن الضوء وتحديد المدى): تصدر هذه المستشعرات نبضات ليزر لقياس المسافات بدقة، مما ينتج عنه تمثيل هندسي متفرق للمشهد يُعرف باسم سحابة النقاط.
  • الكاميرات المجسمة: باستخدام عدستين لتقليد الرؤية الثنائية، تحسب هذه الأنظمة العمق من خلال خرائط التباين، مما يسمح بإعادة بناء الهياكل ثلاثية الأبعاد من الإزاحة البصرية.
  • توقع العمق الأحادي العين: يمكن لخوارزميات التعلم العميق (DL) المتقدمة استنتاج العمق من صورة ثنائية الأبعاد واحدة، وهي تقنية تسمى غالبًا "pseudo-LiDAR"، على الرغم من أنها توفر عمومًا دقة أقل من المستشعرات النشطة.

تطبيقات واقعية

تجعل القدرة على إدراك العمق والحجم من اكتشاف الأجسام ثلاثية الأبعاد محرك الإدراك للصناعات التي تتفاعل مع العالم المادي.

  • المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة على الكشف ثلاثي الأبعاد track وسرعة واتجاه حركة المرور المحيطة. من خلال معالجة البيانات من مجموعة بيانات Waymo المفتوحة أو مجموعة بيانات nuScenes، يمكن لهذه المركبات توقع الاصطدامات المحتملة وتخطيط مسارات آمنة عبر بيئات ديناميكية.
  • الروبوتات: تستخدم الروبوتات الصناعية الإدراك ثلاثي الأبعاد لأداء "التقاط الصناديق". يجب أن تفهم الذراع الروبوتية الوضع ثلاثي الأبعاد الدقيق للجزء لالتقاطه بشكل صحيح من كومة. يتم دمج هذه القدرة في سير العمل الحديث باستخدام أدوات مثل Open3D لمعالجة البيانات.
  • الواقع المعزز (AR): لتثبيت الشخصيات الافتراضية أو المعلومات على الأسطح الواقعية، تستخدم أطر عمل مثل Google الكشف ثلاثي الأبعاد لرسم خريطة لهندسة البيئة، مما يضمن توافق الأصول الرقمية تمامًا مع الأرضية أو الطاولات الفعلية.

اكتشاف الأجسام ثلاثية الأبعاد مقابل ثنائية الأبعاد

يكمن الفرق بين هاتين التقنيتين في أبعاد ناتجهما وحالات الاستخدام المقصودة .

  • الكشف عن الكائنات ثنائية الأبعاد: يعمل في مساحة الشاشة (بكسل). وهو يتيح الاستدلال في الوقت الفعلي لمهام مثل تحديد هوية شخص في إطار فيديو، ولكنه لا يمكنه تحديد المسافة التي يبعدها هذا الشخص بالمتر.
  • الكشف عن الأجسام ثلاثية الأبعاد: يعمل في الفضاء العالمي (بالمتر). يتعامل مع الانسداد بشكل فعال ويوفر بيانات الإحداثيات اللازمة للروبوت للتنقل فعليًا حول جسم ما.

بالنسبة للسيناريوهات التي تتطلب بيانات توجيهية أكثر من مجرد مربع بسيط ولكنها تتطلب حسابًا أقل من الحساب ثلاثي الأبعاد الكامل، يعد الكشف عن المربع المحيط الموجه (OBB) حلاً وسطًا فعالاً. يتم دعم OBB بالكامل بواسطة YOLO26، أحدث Ultralytics مما يسمح بالكشف عن الدوران في الصور الجوية أو خطوط التصنيع المعقدة.

التكامل مع Ultralytics YOLO

في حين أن الكشف ثلاثي الأبعاد الكامل يتطلب غالبًا هياكل متخصصة مثل VoxelNet أو PointPillars، فإن أجهزة الكشف ثنائية الأبعاد عالية السرعة تلعب دورًا مهمًا في خطوط الإنتاج ثلاثية الأبعاد "القائمة على المخروط". في سير العمل هذا، نموذج مثل YOLO11 (أو YOLO26 الأحدث) يكتشف الكائن في الصورة ثنائية الأبعاد. ثم يتم بثق هذا المربع ثنائي الأبعاد في الفضاء ثلاثي الأبعاد لعزل الجزء ذي الصلة من سحابة نقاط LiDAR ، مما يقلل بشكل كبير من منطقة البحث عن النموذج ثلاثي الأبعاد.

يوضح المثال التالي كيفية إجراء الاستدلال باستخدام نموذج OBB باستخدام ultralytics حزمة، التي توفر الكشف المدرك للدوران والذي غالبًا ما يستخدم كمرحلة تمهيدية للتحليل ثلاثي الأبعاد الكامل :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

المفاهيم ذات الصلة

  • تقدير العمق: مهمة تنبؤ على مستوى البكسل تُنشئ خريطة عمق لمشهد ما. على عكس اكتشاف الكائنات، لا تحدد مثيلات الكائنات الفردية أو فئاتها.
  • البيانات الاصطناعية: مشاهد ثلاثية الأبعاد تم إنشاؤها صناعياً وتستخدم لتدريب النماذج عندما تكون البيانات ثلاثية الأبعاد الموسومة في العالم الحقيقي نادرة أو مكلفة لجمعها.
  • PyTorch3D: مكتبة توفر مكونات فعالة وقابلة لإعادة الاستخدام لأبحاث الرؤية الحاسوبية ثلاثية الأبعاد باستخدام التعلم العميق.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن