3D Object Detection
استكشف اكتشاف الكائنات ثلاثية الأبعاد لإتقان الإدراك المكاني في الذكاء الاصطناعي. تعرف على كيفية دعم Ultralytics YOLO26 للعمق الواقعي، والاتجاه، وتقدير المربعات المحيطة ثلاثية الأبعاد.
يعد اكتشاف الكائنات ثلاثية الأبعاد مهمة متطورة في مجال الرؤية الحاسوبية، حيث تُمكّن الآلات من تحديد الكائنات وتعيين مواقعها وتحديد أحجامها داخل فضاء ثلاثي الأبعاد. وعلى عكس اكتشاف الكائنات ثنائية الأبعاد التقليدي، الذي يرسم صندوق إحاطة مسطحاً حول عنصر في صورة ما، يقوم اكتشاف الكائنات ثلاثية الأبعاد بتقدير متوازي مستطيلات (صندوق ثلاثي الأبعاد) يحيط بالكائن. يوفر هذا معلومات حيوية عن العمق، والاتجاه (زاوية التوجيه)، والأبعاد المكانية الدقيقة، مما يسمح للأنظمة بفهم ليس فقط ما هو الكائن، بل وأيضاً أين يقع بدقة بالنسبة للمستشعر في العالم الحقيقي. تُعد هذه القدرة جوهرية للتقنيات التي تتطلب تفاعلاً فيزيائياً مع بيئتها.
Link to this sectionكيف يعمل اكتشاف الكائنات ثلاثية الأبعاد#
لإدراك العمق والحجم، تعتمد نماذج الاكتشاف ثلاثي الأبعاد عادةً على مدخلات بيانات أكثر ثراءً مما توفره الكاميرات القياسية. وفي حين أن بعض الطرق المتقدمة يمكنها استنتاج الهياكل ثلاثية الأبعاد من الصور أحادية العدسة، فإن معظم الأنظمة القوية تستخدم بيانات من مستشعرات LiDAR أو الرادار أو الكاميرات المجسمة. تولد هذه المستشعرات سحب نقاط، وهي مجموعات ضخمة من نقاط البيانات التي تمثل السطح الخارجي للكائنات.
تتضمن العملية عدة خطوات رئيسية:
- اكتساب البيانات: تلتقط المستشعرات هندسة المشهد. فمثلاً، تستخدم LiDAR نبضات الليزر لقياس المسافات، مما يؤدي إلى إنشاء خريطة دقيقة ثلاثية الأبعاد.
- استخراج الميزات: تعالج نماذج التعلم العميق، التي غالباً ما تعتمد على الشبكات العصبية التلافيفية (CNNs) أو المحولات (Transformers)، سحابة النقاط أو بيانات الصورة المدمجة لتحديد الأنماط.
- توقع صندوق الإحاطة: يُخرج النموذج صندوق إحاطة ثلاثي الأبعاد يتم تحديده بواسطة إحداثيات مركزه (x, y, z)، وأبعاده (الطول، العرض، الارتفاع)، وزاوية الدوران (الانعراج - yaw).
- التصنيف: على غرار تصنيف الصور، يخصص النظام تسمية (مثل "مشاة"، "مركبة") للكائن المكتشف.
Link to this sectionالفرق بين الاكتشاف ثنائي الأبعاد وثلاثي الأبعاد#
من المهم التمييز بين هذين المفهومين المترابطين.
- اكتشاف الكائنات ثنائية الأبعاد: يعمل على صور مسطحة (بكسلات). يخبرك بوجود كائن في "الجزء العلوي الأيسر" أو "الجزء السفلي الأيمن" من الإطار، لكنه لا يستطيع تقييم المسافة أو الحجم الحقيقي بدقة بدون علامات مرجعية. وهو مثالي لمهام مثل تحديد عيوب التصنيع أو تحليل موجزات الفيديو حيث يكون العمق أقل أهمية.
- اكتشاف الكائنات ثلاثية الأبعاد: يعمل في فضاء حجمي (فوكسل أو نقاط). يوفر المسافة من الكاميرا (العمق)، والحجم الفيزيائي للكائن، واتجاهه. وهذا ضروري لمنع الاصطدامات في البيئات الديناميكية.
Link to this sectionتطبيقات العالم الحقيقي#
يفتح الانتقال من الإدراك ثنائي الأبعاد إلى ثلاثي الأبعاد حالات استخدام قوية في الصناعات التي تكون فيها السلامة والوعي المكاني أمرين بالغَي الأهمية.
- القيادة الذاتية: تعتمد السيارات ذاتية القيادة بشكل كبير على الاكتشاف ثلاثي الأبعاد للتنقل بأمان. من خلال معالجة البيانات من LiDAR والكاميرات، يمكن للمركبة اكتشاف السيارات الأخرى والمشاة والعوائق، وحساب مسافتها وسرعتها بدقة. وهذا يسمح لنظام الإدراك بتوقع المسارات واتخاذ قرارات الكبح أو التوجيه في سيناريوهات الاستدلال في الوقت الفعلي. تستخدم شركات مثل Waymo هذه المجموعات الضخمة من المستشعرات لرسم خرائط للبيئات الحضرية بشكل فوري.
- الروبوتات والالتقاط من الصناديق: في الخدمات اللوجستية والتخزين، تحتاج الروبوتات إلى التقاط كائنات ذات أشكال وأحجام متفاوتة من الصناديق. يُمكّن الاكتشاف ثلاثي الأبعاد ذراع الروبوت من فهم اتجاه الطرد، وتحديد أفضل نقطة إمساك، وتخطيط مسار خالٍ من الاصطدامات لنقل العنصر. وهذا يعزز الكفاءة في الذكاء الاصطناعي في الخدمات اللوجستية من خلال أتمتة المهام اليدوية المعقدة.
Link to this sectionتنفيذ اكتشاف الكائنات باستخدام Ultralytics#
في حين أن الاكتشاف الكامل ثلاثي الأبعاد غالباً ما يتطلب معماريات سحابة نقاط متخصصة، إلا أن كاشفات ثنائية الأبعاد الحديثة مثل YOLO26 تُستخدم بشكل متزايد كمكون في سير عمل شبه ثلاثي الأبعاد أو لتقدير العمق من خلال تحجيم صناديق الإحاطة. بالنسبة للمطورين الذين يتطلعون إلى تدريب النماذج على مجموعات بياناتهم الخاصة، توفر منصة Ultralytics بيئة مبسطة للتصنيف والتدريب.
فيما يلي مثال بسيط حول كيفية تشغيل الاكتشاف القياسي باستخدام واجهة برمجة تطبيقات Ultralytics Python، والتي غالباً ما تكون الخطوة الأولى في خط معالجة إدراك أكبر:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()Link to this sectionالتحديات والاتجاهات المستقبلية#
على الرغم من فائدته، يواجه اكتشاف الكائنات ثلاثية الأبعاد تحديات تتعلق بالتكلفة الحسابية ومصاريف المستشعرات. تتطلب معالجة ملايين النقاط في سحابة النقاط قدرة GPU كبيرة، مما يجعل النشر على أجهزة الحافة أمراً صعباً. ومع ذلك، فإن الابتكارات في تكميم النموذج والمعماريات العصبية الفعالة تقلل من هذا العبء.
علاوة على ذلك، تعمل تقنيات مثل دمج المستشعرات على تحسين الدقة من خلال الجمع بين معلومات الألوان الغنية للكاميرات وبيانات العمق الدقيقة من LiDAR. ومع نضوج هذه التقنيات، يمكننا أن نتوقع رؤية الإدراك ثلاثي الأبعاد مدمجاً في المزيد من الأجهزة سهلة الاستخدام، بدءاً من نظارات الواقع المعزز وصولاً إلى الأجهزة المنزلية الذكية.






