Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تقدير العمق

اكتشف كيف ينشئ تقدير العمق خرائط العمق من الصور - المجسمة، والتركيز الترددي الترددي، والليدار، والتعلم العميق الأحادي - لتشغيل الروبوتات والواقع المعزز/الواقع الافتراضي والإدراك ثلاثي الأبعاد.

تقدير العمق هو مهمة أساسية في الرؤية الحاسوبية (CV) التي تتضمن تحديد مسافة الأجسام في المشهد بالنسبة للكاميرا. من خلال حساب قيمة العمق لكل بكسل في الصورة, تقوم هذه العملية بتحويل البيانات القياسية ثنائية الأبعاد إلى تمثيل ثلاثي الأبعاد غني، وغالبًا ما يشار إليه باسم خريطة العمق. هذه الإمكانية ضرورية للآلات لإدراك العلاقات المكانية، مما يمكّنها من التنقل في البيئات, والتلاعب بالأشياء وفهم هندسة العالم مثلما يفعل النظام البصري البشري.

آليات تقدير العمق

يمكن تحقيق تقدير العمق من خلال طرق مختلفة، بدءاً من الاستشعار النشط كثيف الأجهزة إلى نهج التعلم العميق القائم على البرمجيات (DL).

  • رؤية مجسمة: مستوحاة من الرؤية البشرية ثنائية العينين, تستخدم أنظمة الرؤية المجسمة كاميرتين متباعدتين قليلاً. من خلال تحليل التباين - أي الفرق في الموضع الأفقي للجسم بين الصورتين اليمنى واليسرى، يمكن للخوارزميات تحديد المسافة رياضياً. تعتمد هذه الطريقة بشكل كبير على موثوق بها عبر الإطارات.
  • تقدير العمق الأحادي: تقدِّر هذه التقنية العمق من صورة واحدة ثنائية الأبعاد، وهي مهمة صعبة لأن الصورة الواحدة تفتقر إلى معلومات واضحة عن العمق. الشبكات العصبية الشبكات العصبية التلافيفية الحديثة (CNNs) الحديثة على مجموعات بيانات ضخمة للتعرف على إشارات أحادية العين، مثل حجم الجسم والمنظور والانسداد. تقدمت الأبحاث في مجال التنبؤ بالعمق الأحادي بشكل كبير, مما أتاح للكاميرات القياسية استنتاج البنى ثلاثية الأبعاد.
  • المستشعرات النشطة (LiDAR و ToF): على عكس أنظمة الكاميرا السلبية، تصدر المستشعرات النشطة إشارات لقياس المسافة. يستخدم LiDAR (الكشف عن الضوء وتحديد المدى) نبضات الليزر لإنشاء سحب نقط دقيقة ثلاثية الأبعاد، بينما تستخدم كاميرات وقت الطيران (ToF) تقيس الوقت الذي يستغرقه الضوء للعودة إلى المستشعر. توفر هذه التقنيات بيانات أرضية عالية الدقة تُستخدم غالبًا لتدريب نماذج التعلم الآلي (ML).

تطبيقات واقعية

إن القدرة على إدراك البُعد الثالث يفتح وظائف مهمة في مختلف الصناعات.

الأنظمة المستقلة والروبوتات

في مجال المركبات ذاتية القيادة، يُعد تقدير العمق يعد تقدير العمق أمراً حيوياً للسلامة والملاحة. تدمج السيارات ذاتية القيادة بيانات الكاميرا مع الليدار detect العوائق, وتقدير المسافة إلى المركبات الأخرى، وإنشاء خريطة للطريق في الوقت الفعلي. وبالمثل، في الروبوتات، يتيح إدراك العمق للأذرع الآلية إجراء عمليات "الالتقاط والتركيب" من خلال الحكم بدقة على موضع وشكل العناصر في سير عمل أتمتة التصنيع.

الواقع المعزز (AR)

بالنسبة لـ الواقع المعزز لكي تكون التجارب غامرة، يجب أن تتفاعل الأجسام الافتراضية بشكل واقعي مع العالم المادي. تقدير العمق يمكّن الأجهزة المحمولة من فهم هندسة الغرفة، مما يسمح بوضع الأثاث أو الشخصيات الافتراضية على على الأرض أو إخفائها خلف الأجسام الواقعية (الانسداد)، مما يحسّن تجربة المستخدم بشكل كبير.

مثال Python : تقريب المسافة باستخدام YOLO11

بينما توجد نماذج العمق المخصصة، غالبًا ما يستخدم المطورون نماذج العمق ثنائية الأبعاد اكتشاف الأجسام إلى جانب بيانات المعايرة لـ المسافة التقريبية. إن ultralytics تبسط المكتبة ذلك من خلال وحدة الحلول الخاصة بها، مما يسمح للمستخدمين تقدير مسافة الأجسام المتعقَّبة بناءً على مواضع مربعاتها المحدودة.

يوضح الرمز التالي كيفية استخدام YOLO11track الأجسام وحساب المسافة التقريبية التقريبي من الكاميرا.

import cv2
from ultralytics import YOLO, solutions

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Initialize the DistanceCalculation solution
# This estimates distance based on bounding box centroids
dist_obj = solutions.DistanceCalculation(names=model.names, view_img=True)

# Open a video file or camera stream
cap = cv2.VideoCapture("path/to/video.mp4")

while cap.isOpened():
    success, im0 = cap.read()
    if not success:
        break

    # Track objects and calculate distance
    tracks = model.track(im0, persist=True, show=False)
    im0 = dist_obj.start_process(im0, tracks)

    # Display result (or save/process further)
    cv2.imshow("Distance Estimation", im0)
    if cv2.waitKey(1) == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

تقدير العمق مقابل المفاهيم ذات الصلة

من المهم التمييز بين تقدير العمق والمصطلحات المماثلة في منظومة الذكاء الاصطناعي:

  • كشف الكائنات ثلاثية الأبعاد: في حين أن يعيِّن تقدير العمق قيمة مسافة لكل بكسل، يركز اكتشاف الأجسام ثلاثية الأبعاد على تحديد الأجسام المحددة ووضع مربع محدد ثلاثي الأبعاد (مكعب) حولها. يخبرك الاكتشاف ثلاثي الأبعاد "مكان السيارة وحجمها"، بينما يوفر تقدير العمق هندسة المشهد بأكمله، بما في ذلك الطريق والخلفية.
  • حساب المسافة: يشير هذا عادةً إلى عادةً ما يشير إلى قياس المسافة الخطية بين نقطتين محددتين أو من الكاميرا إلى جسم مميز (غالبًا باستخدام الاستدلال ثنائي الأبعاد)، كما هو موضح في المثال البرمجي أعلاه. تقدير العمق عبارة عن تنبؤ كثيف على مستوى البكسل يولد خريطة طبوغرافية كاملة للعرض.
  • التدفق البصري: يقيس هذا التدفق البصري الحركة الظاهرية للأجسام بين الإطارات. بينما يمكن استخدام التدفق البصري لاستنتاج العمق (البنية من الحركة), فإن ناتجه الأساسي هو حقل متجه الحركة، وليس خريطة مسافة ثابتة.

تطوير الذكاء الاصطناعي المكاني

التطورات الحديثة في الذكاء الاصطناعي التوليدي والنماذج التأسيسية تعمل النماذج التأسيسية على سد الفجوة بين الأبعاد الثنائية والثلاثية الأبعاد. تقنيات مثل حقول الإشعاع العصبي (NeRF) التي تستخدم صوراً متناثرة ثنائية الأبعاد لإعادة بناء مشاهد معقدة ثلاثية الأبعاد، بالاعتماد بشكل كبير على مبادئ العمق الأساسية. كما تحسن تحسين النموذج أصبح تقدير العمق عالي الدقة ممكناً على الأجهزة المتطورة، مما يدعم الجيل القادم من الطائرات الذكية بدون طيار وروبوتات الخدمة وأجهزة الحوسبة المكانية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن