Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الكشف عن الكائنات ثلاثية الأبعاد

استكشف الكشف عن الأجسام ثلاثية الأبعاد: كيف يقوم كل من LiDAR والسحب النقطية والتعلم العميق بإنشاء مربعات حدودية ثلاثية الأبعاد دقيقة للمركبات ذاتية القيادة والروبوتات والواقع المعزز.

الكشف عن الأجسام ثلاثية الأبعاد هي تقنية متطورة الرؤية الحاسوبية (CV) المتطورة التي تحدد وتصنّف الأجسام وتحدّد مواقعها ضمن فضاء ثلاثي الأبعاد. على عكس التقنية التقليدية ثنائية الأبعاد التقليدية ثنائية الأبعاد، والتي ترسم مربعًا مستطيلًا مسطحًا حول جسم ما على مستوى الصورة، فإن الكشف عن الأجسام ثلاثية الأبعاد يقدّر الكشف عن الأجسام ثلاثي الأبعاد مربعًا محددًا ثلاثي الأبعاد، وهو عبارة عن مربع محدد بإحداثيات مركزه (س، ص، ض), أبعاده (الطول والعرض والارتفاع) واتجاهه (زاوية الاتجاه). تتيح هذه الإمكانية لأنظمة الذكاء الاصطناعي إدراك حجم ومسافة ووضعية الأجسام في العالم الحقيقي، وهو أمر ضروري للتفاعل المادي و والملاحة.

كيف يعمل الكشف عن الكائنات ثلاثية الأبعاد

لإدراك العمق والحجم، تعتمد نماذج اكتشاف الأجسام ثلاثية الأبعاد على مصادر البيانات التي تلتقط الهندسة المكانية. بينما تعتمد الطرق ثنائية الأبعاد تعتمد فقط على كثافة البكسل، فإن الطرق ثلاثية الأبعاد تعالج البيانات من أجهزة الاستشعار المتقدمة:

  • ليدار (الكشف عن الضوء وتحديد المدى): تبعث نبضات ليزر لقياس المسافات بدقة، وتوليد تمثيل ثلاثي الأبعاد متناثر يُعرف باسم سحابة نقطية.
  • كاميرات مجسمة: استخدام عدستين لمحاكاة الرؤية المجهرية، وحساب العمق من خلال خرائط التباين لإعادة بناء بنية ثلاثية الأبعاد.
  • الكاميرات الأحادية: استخدام التعلّم العميق (DL) لاستنتاج العمق من صور فردية واحدة، وغالباً ما يُشار إليها بتقنيات "التعلم الأحادي الزائف".

تعالج البنى المتخصصة هذه البيانات. على سبيل المثال, بوينت نت تعالج السحب النقطية الخام مباشرة، بينما تعالج فوكسل نت تقسم المساحة ثلاثية الأبعاد إلى شبكات حجمية (فوكسل) لتطبيق عمليات التلافيف. تُخرج هذه النماذج الإحداثيات الدقيقة ثلاثية الأبعاد واتجاه الأجسام, مما يمكّن الآلات من فهم ليس فقط ماهية الشيء، ولكن أيضًا مكان وجوده في في العالم المادي.

اكتشاف الأجسام ثلاثية الأبعاد مقابل ثنائية الأبعاد

يكمن التمييز الأساسي في البُعد المكاني والمعلومات المقدمة:

  • كشف الأجسام ثنائية الأبعاد: يعمل في مساحة الصورة (بكسل). يُخرج مربعًا محددًا (min_x، min_y, max_x، max_y) يشير إلى موضع الجسم في إطار الكاميرا ولكنه يفتقر إلى العمق أو الحجم المطلق.
  • اكتشاف الأجسام ثلاثية الأبعاد: يعمل في الفضاء العالمي (متر/وحدات). يُخرج مكعبًا ثلاثي الأبعاد يأخذ في الحسبان العمق والأبعاد المادية والدوران. يتعامل هذا مع الانسداد بشكل أفضل ويسمح بقياس المسافة بدقة قياس دقيق للمسافة.

بالنسبة للتطبيقات التي تتطلب وعيًا مكانيًا جزئيًا جزئيًا دون الحاجة إلى حمل كامل ثلاثي الأبعاد, الصندوق المحيط الموجه (OBB) بمثابة كحل وسط، حيث يتنبأ بالمربعات المحدودة المدورة ثنائية الأبعاد لتلائم الأجسام مثل السفن أو المركبات في المناظر الجوية بشكل أفضل.

تطبيقات واقعية

اكتشاف الأجسام ثلاثية الأبعاد هو محرك الإدراك للصناعات التي تتفاعل مع العالم المادي:

  • المركبات ذاتية القيادة: تستخدم السيارات ذاتية القيادة، مثل تلك التي طورتها شركة Waymo، الكشف ثلاثي الأبعاد على LiDAR وبيانات الكاميرا track سرعة المركبات الأخرى والمشاة واتجاهها والمسافة التي تفصلها عنهم لتخطيط مسارات آمنة.
  • الروبوتات: تعتمد الأذرع الصناعية والروبوتات المتحركة في التصنيع تعتمد على الإدراك ثلاثي الأبعاد للإمساك الأجسام ذات الوضعيات المحددة أو التنقل عبر المستودعات الديناميكية دون تصادمات.
  • الواقع المعزز (AR): تستخدم الأجهزة الكشف ثلاثي الأبعاد لربط الأجسام الافتراضية بأسطح العالم الحقيقي, لضمان توافقها بشكل صحيح مع هندسة البيئة المحيطة.

التكامل مع YOLO11

بينما YOLO11 هو في المقام الأول كاشف ثنائي الأبعاد، فإنه يلعب دورًا حاسمًا في العديد من خطوط أنابيب الكشف ثلاثية الأبعاد. هناك نهج شائع، يُعرف باسم "الكشف القائم على الإطار". يستخدم نموذجًا ثنائي الأبعاد عالي السرعة لتحديد منطقة الاهتمام في الصورة. ثم يتم بثق هذا المربع ثنائي الأبعاد في الفضاء ثلاثي الأبعاد لاقتصاص السحابة النقطية، مما يقلل بشكل كبير من مساحة البحث للنموذج ثلاثي الأبعاد.

يوضح المثال التالي كيفية تنفيذ خطوة الكشف الأولي ثنائية الأبعاد باستخدام Ultralytics YOLO11 والتي من شأنها أن بمثابة اقتراح لوحدة الرفع ثلاثية الأبعاد:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

المفاهيم ذات الصلة

  • تقدير العمق: يتنبأ بمسافة كل بكسل في الصورة من الكاميرا. في حين أنه يوفر بيانات العمق، فإنه لا بطبيعته تحديد الأجسام الفردية أو أبعادها كما يفعل الكشف ثلاثي الأبعاد.
  • مستشعر الاندماج: عملية الجمع بين البيانات من أجهزة استشعار متعددة (على سبيل المثال، الليدار والرادار والكاميرات) لتحسين دقة وموثوقية وموثوقية الكشف ثلاثي الأبعاد.
  • مجموعة بيانات NuScenes: مجموعة بيانات عامة واسعة النطاق للقيادة الذاتية توفر شروحاً ثلاثية الأبعاد للمربع المحدود لبيانات الليدار و وبيانات الكاميرا، وتستخدم على نطاق واسع لقياس النماذج ثلاثية الأبعاد.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن