Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الكشف عن الكائنات ثلاثية الأبعاد

استكشف اكتشاف الكائنات ثلاثية الأبعاد لإتقان الوعي المكاني في الذكاء الاصطناعي. تعرف على كيفية قيام Ultralytics بتعزيز تقدير العمق والتوجه والمربع المحيط ثلاثي الأبعاد في العالم الحقيقي.

يعد اكتشاف الكائنات ثلاثية الأبعاد مهمة معقدة في مجال الرؤية الحاسوبية تتيح للآلات تحديد الكائنات وتحديد مواقعها وحجمها في الفضاء ثلاثي الأبعاد. وعلى عكس اكتشاف الكائنات ثنائية الأبعاد التقليدي، الذي يرسم مربعًا مسطحًا حول عنصر ما في الصورة، فإن اكتشاف الكائنات ثلاثية الأبعاد يقدر مكعبًا (مربعًا ثلاثي الأبعاد) يحيط بالكائن. يوفر هذا معلومات مهمة عن العمق والاتجاه (المسار) والأبعاد المكانية الدقيقة، مما يسمح للأنظمة بفهم ليس فقط ماهية الكائن ، ولكن أيضًا مكانه بالضبط بالنسبة للمستشعر في العالم الحقيقي. هذه القدرة أساسية للتقنيات التي تحتاج إلى التفاعل المادي مع بيئتها.

كيف يعمل الكشف عن الكائنات ثلاثية الأبعاد

لإدراك العمق والحجم، تعتمد نماذج الكشف ثلاثي الأبعاد عادةً على مدخلات بيانات أكثر ثراءً مما توفره الكاميرات القياسية. في حين أن بعض الطرق المتقدمة يمكنها استنتاج الهياكل ثلاثية الأبعاد من الصور الأحادية العين (عدسة واحدة)، فإن معظم الأنظمة القوية تستخدم بيانات من مستشعرات LiDAR أو الرادار أو الكاميرات الاستريو. تولد هذه المستشعرات سحبًا من النقاط— وهي مجموعات ضخمة من نقاط البيانات التي تمثل السطح الخارجي للأجسام.

تتضمن العملية عدة خطوات أساسية:

  • جمع البيانات: تلتقط المستشعرات هندسة المشهد. على سبيل المثال، يستخدم LiDAR نبضات الليزر لقياس المسافات، مما ينتج عنه خريطة ثلاثية الأبعاد دقيقة.
  • استخراج الميزات: تعالج نماذج التعلم العميق، التي غالبًا ما تستند إلى الشبكات العصبية التلافيفية (CNNs) أو المحولات، سحابة النقاط أو بيانات الصور المدمجة لتحديد الأنماط.
  • توقع مربع الحدود: ينتج النموذج مربع حدود ثلاثي الأبعاد محدد بإحداثيات مركزه (x، y، z)، وأبعاده (الطول، العرض، الارتفاع)، وزاوية الدوران (الانحراف).
  • التصنيف: على غرار تصنيف الصور، يقوم النظام بتعيين تسمية (مثل "مشاة" و"مركبة") للكائن المكتشف.

الفرق بين الكشف ثنائي الأبعاد وثلاثي الأبعاد

من المهم التمييز بين هذين المفهومين المترابطين.

  • الكشف عن الكائنات ثنائية الأبعاد: يعمل على الصور المسطحة (بكسلات). يخبرك أن الكائن موجود في "أعلى اليسار" أو "أسفل اليمين" من الإطار ولكنه لا يمكنه تقدير المسافة أو الحجم الحقيقي بشكل فعال بدون علامات مرجعية. وهو مثالي لمهام مثل تحديد عيوب التصنيع أو تحليل مقاطع الفيديو حيث العمق أقل أهمية.
  • الكشف عن الأجسام ثلاثية الأبعاد: يعمل في الفضاء الحجمي (فوكسلات أو نقاط). يوفر المسافة من الكاميرا (العمق) والحجم المادي للجسم واتجاهه. وهذا ضروري لمنع الاصطدامات في البيئات الديناميكية.

تطبيقات واقعية

يتيح الانتقال من الإدراك ثنائي الأبعاد إلى ثلاثي الأبعاد حالات استخدام قوية في الصناعات التي تعتبر فيها السلامة والوعي المكاني أمراً بالغ الأهمية.

  • القيادة الذاتية: تعتمد السيارات ذاتية القيادة بشكل كبير على الكشف ثلاثي الأبعاد للتنقل بأمان. من خلال معالجة البيانات من LiDAR والكاميرات، يمكن للسيارة detect السيارات detect والمشاة والعوائق، وحساب مسافتها وسرعتها بدقة. وهذا يسمح لنظام الإدراك بالتنبؤ بالمسارات واتخاذ قرارات الكبح أو التوجيه في سيناريوهات الاستدلال في الوقت الفعلي. تستخدم شركات مثل Waymo مجموعات أجهزة الاستشعار الثقيلة هذه لرسم خرائط البيئات الحضرية على الفور.
  • الروبوتات والتقاط الصناديق: في مجال الخدمات اللوجستية والتخزين، تحتاج الروبوتات إلى التقاط أشياء ذات أشكال وأحجام مختلفة من الصناديق. يتيح الكشف ثلاثي الأبعاد لذراع الروبوت فهم اتجاه العبوة وتحديد أفضل نقطة إمساك وتخطيط مسار خالٍ من التصادم لنقل العنصر. وهذا يعزز كفاءة الذكاء الاصطناعي في مجال الخدمات اللوجستية من خلال أتمتة المهام اليدوية المعقدة .

تنفيذ الكشف عن الكائنات باستخدام Ultralytics

في حين أن الكشف ثلاثي الأبعاد الكامل يتطلب غالبًا هياكل سحابية نقطية متخصصة، فإن أجهزة الكشف ثنائية الأبعاد الحديثة مثل YOLO26 تُستخدم بشكل متزايد كعنصر في سير العمل شبه ثلاثي الأبعاد أو لتقدير العمق من خلال قياس الصندوق المحيط. بالنسبة للمطورين الذين يسعون إلى تدريب النماذج على مجموعات البيانات الخاصة بهم ، توفر Ultralytics بيئة مبسطة للتعليق والتدريب.

فيما يلي مثال بسيط لكيفية تشغيل الكشف القياسي باستخدامPython Ultralytics Python والتي غالبًا ما تكون الخطوة الأولى في مسار إدراك أكبر:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

التحديات والاتجاهات المستقبلية

على الرغم من فائدته، يواجه الكشف عن الأجسام ثلاثية الأبعاد تحديات تتعلق بتكلفة الحوسبة ونفقات أجهزة الاستشعار. تتطلب معالجة ملايين النقاط في سحابة نقطية GPU كبيرة GPU ، مما يجعل نشرها على الأجهزة الطرفية أمرًا صعبًا. ومع ذلك، فإن الابتكارات في تكمية النماذج والبنى العصبية الفعالة تقلل من هذا العبء.

علاوة على ذلك، تعمل تقنيات مثل دمج المستشعرات على تحسين الدقة من خلال الجمع بين المعلومات الغنية بالألوان التي توفرها الكاميرات والبيانات الدقيقة للعمق التي يوفرها LiDAR. مع نضوج هذه التقنيات، يمكننا أن نتوقع دمج الإدراك ثلاثي الأبعاد في أجهزة أكثر سهولة في الوصول إليها، من نظارات الواقع المعزز إلى الأجهزة المنزلية الذكية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن