استكشف اكتشاف الكائنات ثلاثية الأبعاد لإتقان الوعي المكاني في الذكاء الاصطناعي. تعرف على كيفية قيام Ultralytics بتعزيز تقدير العمق والتوجه والمربع المحيط ثلاثي الأبعاد في العالم الحقيقي.
يعد اكتشاف الكائنات ثلاثية الأبعاد مهمة معقدة في مجال الرؤية الحاسوبية تتيح للآلات تحديد الكائنات وتحديد مواقعها وحجمها في الفضاء ثلاثي الأبعاد. وعلى عكس اكتشاف الكائنات ثنائية الأبعاد التقليدي، الذي يرسم مربعًا مسطحًا حول عنصر ما في الصورة، فإن اكتشاف الكائنات ثلاثية الأبعاد يقدر مكعبًا (مربعًا ثلاثي الأبعاد) يحيط بالكائن. يوفر هذا معلومات مهمة عن العمق والاتجاه (المسار) والأبعاد المكانية الدقيقة، مما يسمح للأنظمة بفهم ليس فقط ماهية الكائن ، ولكن أيضًا مكانه بالضبط بالنسبة للمستشعر في العالم الحقيقي. هذه القدرة أساسية للتقنيات التي تحتاج إلى التفاعل المادي مع بيئتها.
لإدراك العمق والحجم، تعتمد نماذج الكشف ثلاثي الأبعاد عادةً على مدخلات بيانات أكثر ثراءً مما توفره الكاميرات القياسية. في حين أن بعض الطرق المتقدمة يمكنها استنتاج الهياكل ثلاثية الأبعاد من الصور الأحادية العين (عدسة واحدة)، فإن معظم الأنظمة القوية تستخدم بيانات من مستشعرات LiDAR أو الرادار أو الكاميرات الاستريو. تولد هذه المستشعرات سحبًا من النقاط— وهي مجموعات ضخمة من نقاط البيانات التي تمثل السطح الخارجي للأجسام.
تتضمن العملية عدة خطوات أساسية:
من المهم التمييز بين هذين المفهومين المترابطين.
يتيح الانتقال من الإدراك ثنائي الأبعاد إلى ثلاثي الأبعاد حالات استخدام قوية في الصناعات التي تعتبر فيها السلامة والوعي المكاني أمراً بالغ الأهمية.
في حين أن الكشف ثلاثي الأبعاد الكامل يتطلب غالبًا هياكل سحابية نقطية متخصصة، فإن أجهزة الكشف ثنائية الأبعاد الحديثة مثل YOLO26 تُستخدم بشكل متزايد كعنصر في سير العمل شبه ثلاثي الأبعاد أو لتقدير العمق من خلال قياس الصندوق المحيط. بالنسبة للمطورين الذين يسعون إلى تدريب النماذج على مجموعات البيانات الخاصة بهم ، توفر Ultralytics بيئة مبسطة للتعليق والتدريب.
فيما يلي مثال بسيط لكيفية تشغيل الكشف القياسي باستخدامPython Ultralytics Python والتي غالبًا ما تكون الخطوة الأولى في مسار إدراك أكبر:
import cv2
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Visualize the results
for result in results:
# Plot predictions on the image (returns a numpy array)
im_array = result.plot()
# Display using OpenCV
cv2.imshow("Detections", im_array)
cv2.waitKey(0) # Press any key to close
cv2.destroyAllWindows()
على الرغم من فائدته، يواجه الكشف عن الأجسام ثلاثية الأبعاد تحديات تتعلق بتكلفة الحوسبة ونفقات أجهزة الاستشعار. تتطلب معالجة ملايين النقاط في سحابة نقطية GPU كبيرة GPU ، مما يجعل نشرها على الأجهزة الطرفية أمرًا صعبًا. ومع ذلك، فإن الابتكارات في تكمية النماذج والبنى العصبية الفعالة تقلل من هذا العبء.
علاوة على ذلك، تعمل تقنيات مثل دمج المستشعرات على تحسين الدقة من خلال الجمع بين المعلومات الغنية بالألوان التي توفرها الكاميرات والبيانات الدقيقة للعمق التي يوفرها LiDAR. مع نضوج هذه التقنيات، يمكننا أن نتوقع دمج الإدراك ثلاثي الأبعاد في أجهزة أكثر سهولة في الوصول إليها، من نظارات الواقع المعزز إلى الأجهزة المنزلية الذكية.