تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
الأدلة

ما هو تقدير العمق الأحادي؟ نظرة عامة

تعرّف على كيفية عمل تقدير العمق الأحادي، وكيف يقارن بطرق العمق القائمة على المستشعرات، وكيف يتيح الإدراك ثلاثي الأبعاد القابل للتوسع في أنظمة الرؤية.

أبأبيرامي فينا
8 min read
خريطة عمق متوقعة تم إنشاؤها باستخدام تقدير العمق الأحادي

صُممت السيارات ذاتية القيادة لفهم ما يدور حولها حتى تتمكن من القيادة بأمان. وهذا يتجاوز مجرد التعرف على الأجسام مثل المشاة أو المركبات الأخرى.

كما تحتاج هذه السيارات إلى معرفة مدى بُعد تلك الأجسام للاستجابة بشكل صحيح. ومع ذلك، فإن تزويد الآلات بهذا الإحساس بالمسافة ليس بالأمر السهل. فعلى عكس البشر، لا تدرك الآلات العمق بشكل طبيعي من الصور، ويجب تعليمها كيفية القيام بذلك صراحةً.

أحد الأسباب وراء ذلك هو أن معظم الكاميرات تلتقط العالم كصور مسطحة ثنائية الأبعاد. إن تحويل هذه الصور إلى شيء يعكس عمق العالم الحقيقي والهيكل ثلاثي الأبعاد أمر صعب، خاصة عندما تحتاج الأنظمة إلى العمل بشكل موثوق في الظروف اليومية.

من المثير للاهتمام أن رؤية الكمبيوتر، وهي فرع من الذكاء الاصطناعي يركز على تفسير وفهم البيانات المرئية، تجعل من الممكن للآلات فهم العالم بشكل أفضل من الصور. على سبيل المثال، يعد تقدير العمق أحادي العين تقنية من تقنيات رؤية الكمبيوتر التي تقدر مسافة الأجسام باستخدام صورة كاميرا واحدة فقط.

من خلال تعلم الإشارات المرئية مثل حجم الجسم، والمنظور، والملمس، والتظليل، يمكن لهذه النماذج التنبؤ بالعمق دون الاعتماد على مستشعرات إضافية مثل LiDAR (كشف الضوء وتحديد المدى) أو الكاميرات المجسمة. في هذه المقالة، سنستكشف ما هو تقدير العمق أحادي العين، وكيف يعمل، وبعض تطبيقاته في العالم الحقيقي. لنبدأ!

Link to this sectionمقدمة سريعة لتقدير العمق أحادي العين#

يُمكّن تقدير العمق أحادي العين الآلة من فهم مدى بُعد الأجسام عنها باستخدام صورة واحدة فقط. ونظرًا لأنه يعتمد على كاميرا واحدة فقط، فإن هذا النهج يتمتع بالعديد من المزايا، بما في ذلك التكلفة المنخفضة ومتطلبات الأجهزة الأكثر بساطة.

على سبيل المثال، يمكن استخدامه في الروبوتات المنزلية ذات الأسعار المعقولة التي تعمل بكاميرا واحدة. حتى من صورة واحدة، يمكن للنظام الروبوتي تحديد الجدران الأقرب والأبواب الأبعد، واستنتاج العمق الكلي للمساحة.

غالبًا لا تحتوي الصورة الواحدة على معلومات بالمقياس الصحيح، لذا يركز تقدير العمق أحادي العين بشكل عام على العمق النسبي. وبعبارة أخرى، يمكنه تحديد الأجسام الأقرب والأجسام الأبعد، حتى لو لم تكن المسافات الدقيقة معروفة.

عندما يتم تدريب نموذج على بيانات ذات مسافات حقيقية أو عمق مطلق، مثل قياسات العمق من مستشعرات مثل LiDAR، يمكنه تعلم التنبؤ بالمسافات بوحدات العالم الحقيقي، مثل الأمتار. وبدون هذا النوع من البيانات المرجعية، لا يزال بإمكان النموذج استنتاج العمق النسبي ولكنه لا يستطيع تقدير المسافات المطلقة بشكل موثوق.

مخرجات تقدير العمق أحادي العين هي عادةً خريطة عمق، وهي صورة يمثل فيها كل بكسل مدى قرب أو بُعد ذلك الجزء من المشهد. توفر خريطة العمق لأنظمة الرؤية فهمًا أساسيًا للهيكل ثلاثي الأبعاد للبيئة.

مثال لخريطة عمق متوقعة تم إنشاؤها باستخدام تقدير العمق أحادي العين

الشكل 1. مثال لخريطة عمق متوقعة تم إنشاؤها باستخدام تقدير العمق أحادي العين (المصدر)

Link to this sectionمن المستشعرات إلى الصور: تقدير العمق#

يمكن تناول تقدير العمق بعدة طرق، اعتمادًا على المستشعرات المتاحة وقيود الأجهزة ومتطلبات الدقة. تعتمد الطرق التقليدية غالبًا على وجهات نظر متعددة أو مستشعرات متخصصة لقياس المسافة مباشرةً.

أحد النهج الشائعة هو الرؤية المجسمة (stereo vision)، التي تقدر العمق من خلال مقارنة صورتين متزامنتين تم التقاطهما من وجهتي نظر مختلفتين قليلاً. من خلال قياس الفرق بين النقاط المقابلة في الصورتين، يمكن للنظام استنتاج مدى بُعد الأجسام عن الكاميرا.

نهج آخر هو أنظمة RGB-D (الأحمر، الأخضر، الأزرق، والعمق)، التي تستخدم مستشعرات عمق نشطة لقياس المسافة مباشرةً عند كل بكسل. يمكن لهذه الأنظمة توفير معلومات عمق دقيقة في بيئات خاضعة للرقابة ولكنها تتطلب أجهزة إضافية.

في غضون ذلك، تستخدم الطرق القائمة على LiDAR نبضات الليزر لإنشاء تمثيلات دقيقة ثلاثية الأبعاد للمشهد. على الرغم من دقتها العالية، غالبًا ما تكون مستشعرات LiDAR باهظة الثمن وتضيف تعقيدًا كبيرًا للأجهزة.

في المقابل، يستنتج تقدير العمق أحادي العين العمق باستخدام صورة RGB واحدة فقط. ونظرًا لأنه لا يعتمد على كاميرات متعددة أو مستشعرات متخصصة، فإنه أسهل في النشر على نطاق واسع ويعد خيارًا جيدًا عندما تكون التكلفة وموارد الأجهزة محدودة.

Link to this sectionتعلم العمق من صورة واحدة#

عند تقدير العمق من صورة واحدة، تتعلم نماذج العمق أحادي العين التعرف على الإشارات المرئية التي يستخدمها البشر غريزيًا للحكم على المسافة. تشمل هذه الإشارات خطوط المنظور، وحجم الجسم، وكثافة الملمس، وتداخل الأجسام، والتظليل، وكلها تقدم تلميحات حول مدى بُعد الأجسام عن الكاميرا.

تعمل هذه الإشارات معًا لخلق إحساس بالعمق. غالبًا ما تكون الأجسام التي تبدو أصغر أو محجوبة جزئيًا أبعد، بينما تشير التفاصيل الأكثر وضوحًا والمظاهر المرئية الأكبر عادةً إلى أن شيئًا ما أقرب.

لتعلم هذه الأنماط، يتم تدريب نماذج العمق أحادي العين على مجموعات بيانات صور واسعة النطاق، غالبًا ما تكون مقترنة بمعلومات العمق التي تم الحصول عليها من مصادر أخرى مثل LiDAR أو الأنظمة المجسمة. أثناء التدريب، تتعلم النماذج كيفية ارتباط الإشارات المرئية بالعمق، مما يسمح لها باستنتاج المسافة من صورة واحدة في وقت الاستدلال.

مع بيانات التدريب المتنوعة، يمكن لنماذج الرؤية الحديثة تعميم هذا الفهم المكتسب عبر مجموعة واسعة من البيئات، بما في ذلك المشاهد الداخلية والخارجية، ويمكنها التعامل مع وجهات نظر غير مألوفة.

Link to this sectionنظرة على تقنيات تقدير العمق أحادي العين المختلفة#

بعد ذلك، سنستكشف الأساليب الرئيسية المستخدمة لتقدير العمق من صورة واحدة وكيف تطورت هذه الأساليب بمرور الوقت.

Link to this sectionالأساليب الكلاسيكية والقائمة على الهندسة#

اعتمدت طرق تقدير العمق المبكرة على قواعد مرئية مباشرة مرتبطة بـ هندسة الكاميرا. استُخدمت إشارات مثل المنظور، وحجم الجسم، وما إذا كان أحد الأجسام يحجب الآخر لتقدير المسافة.

على سبيل المثال، عندما ظهر جسمان متشابهان بأحجام مختلفة، تم افتراض أن الأصغر هو الأبعد. عملت هذه الأساليب بشكل جيد إلى حد معقول في البيئات الخاضعة للرقابة حيث ظلت عوامل مثل الإضاءة، وموضع الكاميرا، وتخطيط المشهد متسقة.

ومع ذلك، في مشاهد العالم الحقيقي، غالبًا ما تنهار هذه الافتراضات. يمكن أن تؤدي الاختلافات في الإضاءة، وتغيرات وجهة النظر، وزيادة تعقيد المشهد إلى تقديرات عمق غير موثوقة، مما يحد من فعالية الطرق الكلاسيكية في البيئات غير الخاضعة للرقابة.

Link to this sectionأساليب التعلم الآلي المبكرة#

جلبت أساليب التعلم الآلي المبكرة مزيدًا من المرونة لتقدير العمق من خلال تعلم الأنماط مباشرةً من البيانات. بدلاً من الاعتماد فقط على قواعد هندسية ثابتة، حاولت هذه النماذج تعلم العلاقة بين المعلومات المرئية والمسافة، مع معاملة التنبؤ بالعمق كمشكلة انحدار تعتمد على إشارات مثل الحواف، والأنسجة، وتغيرات الألوان.

كان اختيار هذه الميزات جزءًا رئيسيًا من العملية. كان على المهندسين اتخاذ قرار بشأن الإشارات المرئية التي يجب استخراجها وكيفية تمثيلها، وكان أداء النموذج يعتمد بشكل كبير على تلك الاختيارات.

على الرغم من أن هذا النهج عمل بشكل أفضل من الأساليب السابقة، إلا أنه كان لا يزال له حدود. إذا كانت الميزات المختارة تفتقر إلى سياق مهم، فستكون تنبؤات العمق أقل دقة. مع زيادة تعقيد وتنوع المشاهد، غالبًا ما كافحت هذه النماذج لإنتاج نتائج موثوقة.

Link to this sectionخوارزميات التعلم العميق#

تستخدم معظم أنظمة تقدير العمق أحادي العين الحديثة التعلم العميق، الذي يشير إلى الشبكات العصبية ذات الطبقات المتعددة التي يمكنها تعلم أنماط معقدة من البيانات. تتعلم هذه النماذج التنبؤ بالعمق مباشرةً من الصور وتنتج خرائط عمق.

يتم بناء العديد من الأساليب باستخدام الشبكات العصبية التلافيفية (CNNs)، وهو نوع من الشبكات العصبية مصمم لمعالجة الصور عن طريق اكتشاف الأنماط مثل الحواف والأشكال. غالبًا ما تستخدم هذه النماذج إعداد التشفير وفك التشفير: يقوم المشفر باستخراج الميزات المرئية من الصورة، ويحول فك التشفير تلك الميزات إلى خريطة عمق. تساعد معالجة الصورة على مستويات متعددة النموذج على التقاط التخطيط العام للمشهد مع الاستمرار في التقاط حدود واضحة للأجسام.

تركز النماذج الأحدث على فهم العلاقات عبر أجزاء مختلفة من الصورة. تستخدم النماذج القائمة على Transformer ونماذج محول الرؤية (ViT) آليات الانتباه، التي تسمح للنموذج بتحديد مناطق الصورة الأكثر صلة وربط المناطق البعيدة ببعضها البعض. يساعد هذا النموذج في بناء فهم أكثر اتساقًا للعمق عبر المشهد بأكمله.

تجمع بعض الأنظمة بين كلا الفكرتين. تستخدم نماذج CNN–Transformer الهجينة شبكات CNN لالتقاط التفاصيل المحلية الدقيقة وTransformers لنمذجة السياق العالمي للمشهد. على الرغم من أن هذا غالبًا ما يحسن الدقة، إلا أنه يتطلب عادةً المزيد من الموارد الحسابية، مثل ذاكرة وقوة معالجة إضافية.

Link to this sectionلماذا يعد فهم العمق مهمًا لأنظمة الذكاء الاصطناعي للرؤية#

بينما تتعلم عن تقدير العمق أحادي العين، قد تتساءل لماذا يعد فهم العمق جزءًا مهمًا جدًا من أنظمة الذكاء الاصطناعي القائمة على الرؤية.

عندما يتمكن النظام من تقدير مدى بُعد الأجسام والأسطح، فإنه يكتسب فهمًا أفضل لكيفية تخطيط المشهد وكيفية ارتباط العناصر المختلفة ببعضها البعض. هذا النوع من الوعي المكاني ضروري لاتخاذ قرارات موثوقة، خاصة في تطبيقات العالم الحقيقي مثل القيادة الذاتية.

تضيف معلومات العمق أيضًا سياقًا قيمًا لمهام رؤية الكمبيوتر الأخرى. على سبيل المثال، يمكن لاكتشاف الأجسام، المدعوم بنماذج مثل Ultralytics YOLO26، إخبار النظام بما هو موجود في المشهد، لكن العمق يساعد في الإجابة عن مكان وجود تلك الأجسام بالنسبة للكاميرا وبالنسبة لبعضها البعض.

معًا، تتيح هذه القدرات مجموعة واسعة من تطبيقات الذكاء الاصطناعي للرؤية، مثل بناء خرائط ثلاثية الأبعاد، والتنقل في بيئات معقدة، وفهم المشهد ككل.

تعتمد الروبوتات والمركبات ذاتية القيادة على هذه المعلومات للتحرك بأمان، وتجنب العقبات، والاستجابة للتغيرات في الوقت الفعلي. على سبيل المثال، يعتمد نهج القيادة المعتمدة على الرؤية فقط من Tesla على صور الكاميرا جنبًا إلى جنب مع تقدير العمق، بدلاً من LiDAR، لفهم مدى بُعد الأجسام وكيفية تموضعها على الطريق.

Link to this sectionكيف تعمل نماذج تقدير العمق أحادي العين#

على الرغم من اختلاف هياكل النماذج، تتبع معظم نماذج تقدير العمق أحادي العين عملية مماثلة لتحويل صورة واحدة إلى خريطة عمق. إليك نظرة عامة سريعة على الخطوات الرئيسية المعنية:

  • الإدخال والمعالجة المسبقة: تبدأ سير العمل بصورة إدخال. قبل تمريرها إلى النموذج، يتم عادةً تغيير حجم الصورة الأصلية، وتطبيعها، وتحويلها إلى موتر (tensor)، وهو تنسيق تستخدمه الشبكات العصبية لمعالجة بيانات الصور بكفاءة.
  • استخراج الميزات: تحلل شبكة التشفير الصورة لاستخراج ميزات مرئية ذات مغزى. تلتقط هذه الميزات معلومات مثل الأنسجة، وحدود الأجسام، والتخطيط العام للمشهد. تعمل معظم النماذج على مستويات متعددة حتى تتمكن من فهم التفاصيل الدقيقة والهيكل العالمي.
  • الاستدلال على العمق: باستخدام الميزات المستخرجة، يجمع النموذج بين التفاصيل المحلية والسياق العالمي للاستدلال حول العلاقات المكانية في المشهد. في هذه المرحلة، يتعلم أي مناطق الصورة أقرب إلى الكاميرا وأيها أبعد.
  • إنشاء خريطة العمق: يقوم فك التشفير بعد ذلك بتحويل هذه المعلومات إلى خريطة عمق كثيفة. يتم تعيين قيمة عمق لكل بكسل في الصورة، غالبًا عن طريق دمج التنبؤات من مستويات مختلفة لتحسين الدقة والاتساق.

Link to this sectionكيف يتم تدريب نماذج تقدير العمق أحادي العين#

تفترض العملية التي ناقشناها للتو أن لدينا بالفعل نموذجًا مدربًا أو مدربًا مسبقًا. ولكن كيف يعمل تدريب نموذج تقدير العمق أحادي العين بالفعل؟

يبدأ التدريب بإعداد بيانات الصور بحيث يمكن معالجتها بكفاءة بواسطة الشبكة. يتم تغيير حجم صور الإدخال وتطبيعها إلى مقياس متسق، ثم تمريرها عبر النموذج لإنشاء خريطة عمق متوقعة تقدر المسافة عند كل بكسل.

تتم مقارنة خريطة العمق المتوقعة بعد ذلك ببيانات العمق المرجعية باستخدام دالة خسارة، والتي تقيس مدى بُعد تنبؤ النموذج عن العمق الحقيقي. تمثل قيمة الخسارة هذه خطأ النموذج الحالي وتوفر إشارة للتحسين.

يستخدم المحسن (optimizer) هذه الإشارة لتحديث النموذج عن طريق ضبط أوزانه الداخلية. للقيام بذلك، يحسب المحسن التدرج، الذي يصف كيفية تغير الخسارة فيما يتعلق بكل معلمة من معلمات النموذج، ويطبق هذه التحديثات بشكل متكرر عبر عصور متعددة (epochs)، أو تمريرات كاملة عبر مجموعة بيانات التدريب.

تسترشد عملية تدريب التعلم الخاضع للإشراف التكرارية هذه بمعلمات فائقة مثل معدل التعلم، الذي يتحكم في مدى حجم كل خطوة تحديث، وحجم الدفعة (batch size)، الذي يحدد عدد الصور التي تتم معالجتها في وقت واحد. نظرًا لأن التدريب يتضمن عددًا كبيرًا من العمليات الحسابية، فإنه يتم تسريعه عادةً باستخدام وحدة معالجة الرسوميات (GPU)، وهي رائعة للحوسبة المتوازية.

بمجرد اكتمال التدريب، يتم تقييم النموذج باستخدام مقاييس تقييم قياسية على مجموعة التحقق، والتي تتكون من صور لم تُستخدم أثناء التدريب. يساعد هذا التقييم في قياس مدى جودة تعميم النموذج على البيانات الجديدة.

يمكن بعد ذلك إعادة استخدام النموذج المدرب أو ضبطه بدقة لسيناريوهات جديدة. بشكل عام، تتيح عملية التدريب هذه لنماذج تقدير العمق أحادي العين إنتاج تقديرات عمق متسقة، والتي تعتبر ضرورية للمهام اللاحقة مثل إعادة البناء ثلاثي الأبعاد والنشر في العالم الحقيقي.

Link to this sectionاستكشاف أحدث النماذج واتجاهات البحث#

تحسن تقدير العمق أحادي العين بسرعة حيث أصبحت النماذج أفضل في فهم المشاهد بأكملها بدلاً من مجرد تفاصيل مرئية صغيرة. غالبًا ما أنتجت الأساليب السابقة خرائط عمق غير متساوية، خاصة في البيئات المعقدة.

تركز النماذج الأحدث، كما يظهر في الأبحاث الأخيرة المنشورة على arXiv، بشكل أكبر على السياق العالمي، مما يؤدي إلى تنبؤات عمق تبدو أكثر استقرارًا وواقعية. ساعدت النماذج المعروفة مثل MiDaS وDPT في دفع هذا التحول من خلال تعلم العمق من مجموعات بيانات متنوعة وعالية الدقة والتعميم بشكل جيد عبر العديد من المشاهد.

تبني النماذج الأحدث، بما في ذلك ZoeDepth وDepth Anything V2، على هذا العمل من خلال تحسين اتساق النطاق مع الحفاظ على أداء قوي عبر مجموعة واسعة من الإعدادات. غالبًا ما يتم قياس هذا النوع من التقدم باستخدام مجموعات بيانات معيارية شائعة مثل KITTI وNYU، والتي تغطي كلًا من المشاهد الخارجية والداخلية.

اتجاه آخر واضح هو الموازنة بين الدقة والعملية. يتم تحسين النماذج الأصغر للسرعة ويمكن تشغيلها في الوقت الفعلي على الأجهزة الطرفية أو المحمولة، بينما تعطي النماذج الأكبر الأولوية للدقة الأعلى ودقة العمق بعيد المدى.

Link to this sectionتطبيقات تقدير العمق أحادي العين#

بعد ذلك، دعنا نستعرض بعض الأمثلة الواقعية التي توضح كيفية استخدام تقدير العمق أحادي العين للاستدلال حول الهيكل ثلاثي الأبعاد للمشهد من صورة واحدة.

في كل هذه الحالات، من المهم أن تضع في اعتبارك أن معلومات العمق هي تقدير مستنتج من الإشارات المرئية، وليست قياسًا دقيقًا. وهذا يجعل تقدير العمق أحادي العين مفيدًا لفهم التخطيط النسبي والعلاقات المكانية، ولكنه ليس بديلًا للمستشعرات المصممة لقياس المسافة بدقة، مثل LiDAR أو الأنظمة المجسمة.

Link to this sectionرسم خرائط التضاريس والملاحة القائمة على الطائرات بدون طيار#

تعمل الطائرات بدون طيار غالبًا في بيئات تكون فيها إشارات GPS غير موثوقة، مثل الغابات، ومواقع البناء، ومناطق الكوارث، أو المناطق الحضرية المكتظة. للطيران بأمان في هذه الظروف، تحتاج هذه الطائرات إلى فهم التضاريس المحيطة ومعرفة مدى بُعد العقبات. في الماضي، كان هذا يتطلب عادةً إضافة مستشعرات مثل LiDAR أو كاميرات مجسمة، مما يزيد من الوزن، واستهلاك الطاقة، والتكلفة الإجمالية.

يعد تقدير العمق أحادي العين بديلًا أبسط. باستخدام كاميرا RGB واحدة فقط، يمكن للطائرات بدون طيار تقدير العمق من الصور وبناء فهم أساسي ثلاثي الأبعاد لبيئتها. يسمح لهم ذلك باكتشاف العقبات مثل المباني، أو الأشجار، أو التغيرات المفاجئة في التضاريس وتعديل مسار طيرانها في الوقت الفعلي.

تدعم تقديرات العمق هذه مهام الملاحة الرئيسية، بما في ذلك تجنب العقبات، والتحكم في الارتفاع، والهبوط الآمن. ونتيجة لذلك، يمكن للطائرات بدون طيار خفيفة الوزن أداء مهام رسم الخرائط، والتفتيش، والملاحة دون الاعتماد على مستشعرات عمق متخصصة.

تقدير العمق أحادي العين المستخدم لتحليل صور الطائرات بدون طيار

الشكل 2. يمكن استخدام تقدير العمق أحادي العين لتحليل صور الطائرات بدون طيار (المصدر)

Link to this sectionسد الثغرات للمركبات ذاتية القيادة في السباقات#

تعتمد المركبات ذاتية القيادة عادةً بشكل كبير على مستشعرات LiDAR، التي تستخدم نبضات الليزر لقياس المسافة وبناء عرض ثلاثي الأبعاد للطريق. على الرغم من دقتها العالية، يمكن أن تواجه مستشعرات LiDAR صعوبة مع قمم الطرق الحادة، أو المنحدرات الشديدة، أو الانسداد، أو ميل المركبة المفاجئ، مما يؤدي أحيانًا إلى إرجاع بيانات عمق متناثرة أو مفقودة.

يمكن أن يساعد تقدير العمق أحادي العين في سد هذه الثغرات من خلال توفير معلومات عمق كثيفة من صورة RGB واحدة، حتى عندما تكون بيانات LiDAR غير مكتملة. ضع في اعتبارك سيناريو تقترب فيه سيارة ذاتية القيادة من قمة تلة بسرعة. يمكن أن تتجاوز حزم LiDAR الطريق خلف القمة، مما يترك حالة من عدم اليقين بشأن ما ينتظر في الأمام.

ومع ذلك، لا يزال بإمكان تقدير العمق القائم على الكاميرا استنتاج شكل الطريق من الإشارات المرئية مثل المنظور والملمس، مما يساعد المركبة في الحفاظ على إدراك موثوق حتى تستقر بيانات LiDAR. معًا، يتيح LiDAR وتقدير العمق أحادي العين إدراكًا أكثر استقرارًا وتحكمًا أكثر أمانًا في ظروف القيادة الصعبة.

تصور لاستخدام تقدير العمق أحادي العين للسباقات ذاتية القيادة

الشكل 3. تصور لاستخدام تقدير العمق أحادي العين للسباقات ذاتية القيادة (المصدر)

Link to this sectionالملاحة الروبوتية وتجنب العقبات#

غالبًا ما يتم تشغيل الروبوتات في أماكن لا تتوفر فيها خرائط مفصلة، وتتغير الظروف باستمرار. للتحرك بأمان، تحتاج إلى إحساس موثوق بمقدار المساحة حولها وأين توجد العقبات.

يمكن أن يوفر تقدير العمق أحادي العين هذا الوعي المكاني باستخدام كاميرا RGB واحدة، دون الاعتماد على أجهزة ثقيلة أو باهظة الثمن. من خلال تعلم الإشارات المرئية مثل المقياس والمنظور، يمكن لنماذج تقدير العمق إنشاء خرائط عمق كثيفة للمحيط. وهذا يعطي الروبوتات رؤية واضحة للمسافة إلى الأسطح والأجسام.

على وجه الخصوص، عندما يتم دمج معلومات العمق مع مهام رؤية الكمبيوتر مثل اكتشاف الأجسام والتقسيم الدلالي، يمكن للروبوتات الحصول على رؤية أكثر اكتمالًا لبيئتها. يمكنها تحديد الأجسام، وفهم مسافتها، وتقرر أين يكون التحرك آمنًا. هذا يدعم تجنب العقبات، واكتشاف المساحات الخالية، والتخطيط للمسار في الوقت الفعلي.

اكتشاف الأجسام باستخدام تقدير العمق أحادي العين واكتشاف الأجسام

الشكل 4. اكتشاف الأجسام باستخدام تقدير العمق أحادي العين واكتشاف الأجسام (المصدر)

Link to this sectionإيجابيات وسلبيات تقدير العمق أحادي العين#

إليك بعض المزايا الرئيسية لاستخدام تقدير العمق أحادي العين:

  • خفيف الوزن وموفر للطاقة: يقلل استخدام كاميرا واحدة من وزن النظام واستهلاك الطاقة، وهو أمر مهم بشكل خاص للروبوتات المحمولة، والطائرات بدون طيار، والأنظمة المدمجة.
  • صديق لدمج المستشعرات: يمكن للعمق أحادي العين أن يكمل المستشعرات الأخرى، مثل LiDAR أو الرادار، من خلال سد الثغرات أو توفير التكرار.
  • يعمل عبر العديد من البيئات: يمكن استخدام نفس النهج القائم على الكاميرا في الداخل، وفي الهواء الطلق، وعبر منصات مختلفة دون الحاجة إلى تغييرات في الأجهزة.

على الرغم من أن تقدير العمق أحادي العين يوفر مزايا واضحة، إلا أن هناك بعض القيود التي يجب مراعاتها:

  • دقة أقل من المستشعرات النشطة: على الرغم من تحسنه بسرعة، لا يمكن لتقدير العمق أحادي العين عمومًا مطابقة الدقة المطلقة لمستشعرات LiDAR أو الضوء المنظم في الظروف الخاضعة للرقابة.
  • الحساسية لظروف الإضاءة: قد يتدهور الأداء في بيئات الإضاءة المنخفضة، أو الظلال القوية، أو الوهج، أو المشاهد ذات الملمس الضعيف.
  • تحديات التعميم: قد لا ينتقل النموذج المدرب في بيئة واحدة دائمًا بشكل موثوق إلى مجالات غير مرئية دون تكييف أو ضبط دقيق.

Link to this sectionمتى لا تعتمد على تقدير العمق أحادي العين#

على الرغم من أن تقدير العمق أحادي العين هو مجال بحث مثير للاهتمام، فمن المهم فهم أين يمكن استخدامه عمليًا وأين لا يمكن استخدامه. المسافات التي ينتجها هي تقديرات مبنية على ما يراه النموذج في الصورة، وليست قياسات دقيقة مأخوذة من العالم الحقيقي.

بسبب هذا، يمكن أن تتغير جودة النتائج اعتمادًا على عوامل مثل الإضاءة، وتعقيد المشهد، ومدى تشابه المشهد مع ما تم تدريب النموذج عليه. عادةً ما يكون تقدير العمق أحادي العين جيدًا في معرفة ما هو أقرب وما هو أبعد، لكنه ليس موثوقًا عندما تحتاج إلى مسافات دقيقة.

في المواقف التي تهم فيها الدقة حقًا، مثل الأنظمة الحساسة للسلامة، أو التفتيش الصناعي، أو الروبوتات التي تحتاج إلى التفاعل بدقة عالية مع الأجسام، يجب قياس العمق مباشرةً. تم تصميم مستشعرات مثل LiDAR، والرادار، والكاميرات المجسمة، أو أنظمة الضوء المنظم لهذا الغرض وهي توفر معلومات مسافة أكثر موثوقية بكثير.

يمكن أن يواجه تقدير العمق أحادي العين صعوبة أيضًا في الظروف الصعبة بصريًا. الإضاءة الضعيفة، والظلال القوية، والأسطح العاكسة أو الشفافة، والضباب، والدخان، أو المشاهد ذات الملمس المرئي القليل جدًا يمكن أن تجعل تقديرات العمق أقل موثوقية. تقدير العمق في المسافات الطويلة هو حالة أخرى حيث تعمل المستشعرات المخصصة عادةً بشكل أفضل.

عندما يتعلق الأمر بحلول العالم الحقيقي، فإن تقدير العمق أحادي العين يعمل بشكل أفضل كأداة داعمة بدلاً من كونه حلاً مستقلاً. يمكنه إضافة سياق مكاني مفيد، والمساعدة في سد الفجوات عندما تكون المستشعرات الأخرى محدودة، وتحسين فهم المشهد بشكل عام. ومع ذلك، لا ينبغي أن يكون المصدر الوحيد لمعلومات العمق عندما تكون متطلبات الدقة أو السلامة أو الموثوقية الصارمة مهمة.

Link to this sectionأبرز النقاط#

تقدير العمق أحادي العين هو تقنية رؤية حاسوبية تمكّن الآلات من تقدير مدى بُعد الأشياء باستخدام صورة كاميرا واحدة فقط. من خلال تعلم الإشارات البصرية مثل المنظور، وحجم الكائن، والملمس، والتظليل، يمكن لنماذج الذكاء الاصطناعي هذه استنتاج الهيكل ثلاثي الأبعاد للمشهد دون الاعتماد على مستشعرات مثل LiDAR أو الكاميرات المزدوجة. وهذا يجعل من تقدير العمق أحادي العين نهجاً فعالاً من حيث التكلفة وقابلاً للتوسع لتطبيقات مثل القيادة الذاتية، والروبوتات، وفهم المشاهد ثلاثية الأبعاد.

لاستكشاف المزيد حول الذكاء الاصطناعي البصري، قم بزيارة مستودع GitHub الخاص بنا وانضم إلى مجتمعنا. تحقق من صفحات حلولنا للتعرف على الذكاء الاصطناعي في الروبوتات والرؤية الحاسوبية في التصنيع. اكتشف خيارات الترخيص الخاصة بنا للبدء في استخدام الرؤية الحاسوبية اليوم!

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.

اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.

اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.

اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.

اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة