Yolo فيجن شنتشن
شنتشن
انضم الآن

ما هو تقدير العمق الأحادي العين؟ نظرة عامة

تعرف على كيفية عمل تقدير العمق الأحادي العين، وكيف يقارن بطرق قياس العمق القائمة على أجهزة الاستشعار، وكيف يتيح الإدراك ثلاثي الأبعاد القابل للتطوير في أنظمة الرؤية.

تم تصميم السيارات ذاتية القيادة لفهم ما يحدث حولها حتى تتمكن من القيادة بأمان. وهذا يعني تجاوز مجرد التعرف على الأشياء مثل المشاة أو المركبات الأخرى. 

كما أنها تحتاج إلى معرفة المسافة التي تفصلها عن تلك الأشياء حتى تتمكن من الاستجابة بشكل صحيح. لكن منح الآلات هذا الإحساس بالمسافة ليس بالأمر السهل. فعلى عكس البشر، لا تستطيع الآلات إدراك العمق من الصور بشكل طبيعي، بل تحتاج إلى تعليمها كيفية القيام بذلك بشكل صريح.

أحد الأسباب وراء ذلك هو أن معظم الكاميرات تلتقط العالم على شكل صور ثنائية الأبعاد مسطحة. وتحويل تلك الصور إلى شيء يعكس عمق العالم الحقيقي وبنيته ثلاثية الأبعاد أمر صعب، خاصة عندما يتعين على الأنظمة أن تعمل بشكل موثوق في الظروف اليومية. 

ومن المثير للاهتمام أن الرؤية الحاسوبية، وهي فرع من فروع الذكاء الاصطناعي يركز على تفسير وفهم البيانات المرئية، تمكن الآلات من فهم العالم بشكل أفضل من خلال الصور. على سبيل المثال، تقدير العمق الأحادي العين هو تقنية رؤية حاسوبية تقدر مسافة الأجسام باستخدام صورة كاميرا واحدة فقط.

من خلال تعلم الإشارات البصرية مثل حجم الكائنات والمنظور والملمس والتظليل، يمكن لهذه النماذج توقع العمق دون الاعتماد على أجهزة استشعار إضافية مثل LiDAR (اكتشاف الضوء وتحديد المدى) أو الكاميرات الاستريو. في هذه المقالة، سوف نستكشف ما هو تقدير العمق الأحادي العين، وكيف يعمل، وبعض تطبيقاته في العالم الواقعي. لنبدأ!

مقدمة سريعة لتقدير العمق الأحادي العين

يتيح تقدير العمق الأحادي العين للآلة فهم المسافة التي تفصلها عن الأجسام باستخدام صورة واحدة فقط. ونظراً لأن هذه الطريقة تعتمد على كاميرا واحدة فقط، فإنها تتمتع بالعديد من المزايا، بما في ذلك التكلفة المنخفضة ومتطلبات الأجهزة البسيطة.

على سبيل المثال، يمكن استخدامه في الروبوتات المنزلية ذات الأسعار المعقولة التي تعمل بكاميرا واحدة. حتى من صورة واحدة، يمكن للنظام الروبوتي تحديد الجدران الأقرب والأبواب الأبعد، واستنتاج العمق الإجمالي للمساحة.

في كثير من الأحيان، لا تحتوي الصورة الواحدة على معلومات بالمقياس الصحيح، لذا يركز تقدير العمق الأحادي العين عمومًا على العمق النسبي. بمعنى آخر، يمكنه تحديد الأجسام الأقرب والأبعد، حتى لو لم تكن المسافات الدقيقة معروفة.

عندما يتم تدريب نموذج على بيانات ذات مسافات حقيقية أو عمق مطلق، مثل قياسات العمق من أجهزة استشعار مثل LiDAR، يمكنه تعلم توقع المسافات بوحدات قياس حقيقية، مثل الأمتار. بدون هذا النوع من البيانات المرجعية، لا يزال بإمكان النموذج استنتاج العمق النسبي ولكن لا يمكنه تقدير المسافات المطلقة بشكل موثوق.

عادةً ما يكون ناتج تقدير العمق الأحادي العين خريطة عمق، وهي صورة يمثل فيها كل بكسل مدى قرب أو بعد ذلك الجزء من المشهد. توفر خريطة العمق لأنظمة الرؤية فهمًا أساسيًا للبنية ثلاثية الأبعاد للبيئة.

الشكل 1. مثال على خريطة عمق متوقعة تم إنشاؤها باستخدام تقدير العمق الأحادي العين (المصدر)

من أجهزة الاستشعار إلى الصور: تقدير العمق

يمكن تناول تقدير العمق بعدة طرق، اعتمادًا على أجهزة الاستشعار المتاحة وقيود الأجهزة ومتطلبات الدقة. غالبًا ما تعتمد الطرق التقليدية على وجهات نظر متعددة أو أجهزة استشعار متخصصة لقياس المسافة مباشرة.

أحد الأساليب الشائعة هو الرؤية المجسمة، التي تقدر العمق من خلال مقارنة صورتين متزامنتين تم التقاطهما من زاويتين مختلفتين قليلاً. من خلال قياس الفرق بين النقاط المقابلة في الصورتين، يمكن للنظام استنتاج المسافة التي تفصل الأجسام عن الكاميرا.

هناك نهج آخر يتمثل في أنظمة RGB-D (الأحمر والأخضر والأزرق والعمق)، التي تستخدم مستشعرات عمق نشطة لقياس المسافة مباشرة عند كل بكسل. يمكن لهذه الأنظمة توفير معلومات دقيقة عن العمق في بيئات خاضعة للرقابة، ولكنها تتطلب أجهزة إضافية.

في الوقت نفسه، تستخدم الطرق القائمة على LiDAR نبضات الليزر لتوليد تمثيلات ثلاثية الأبعاد دقيقة للمشهد. على الرغم من دقتها العالية، غالبًا ما تكون مستشعرات LiDAR باهظة الثمن وتضيف تعقيدًا كبيرًا إلى الأجهزة.

في المقابل، يستنتج تقدير العمق الأحادي العين العمق باستخدام صورة RGB واحدة فقط. ونظرًا لأنه لا يعتمد على كاميرات متعددة أو مستشعرات متخصصة، فإنه يسهل نشره على نطاق واسع ويعد خيارًا جيدًا عندما تكون التكلفة وموارد الأجهزة محدودة. 

تعلم العمق من صورة واحدة

عند تقدير العمق من صورة واحدة، تتعلم نماذج العمق الأحادية العين التعرف على الإشارات البصرية التي يستخدمها البشر بشكل غريزي لتقدير المسافة. وتشمل هذه الإشارات خطوط المنظور وحجم الكائن وكثافة النسيج وتداخل الكائنات والتظليل، والتي توفر جميعها تلميحات حول المسافة التي تفصل الكائنات عن الكاميرا.

تعمل هذه الإشارات معًا لخلق إحساس بالعمق. غالبًا ما تكون الأشياء التي تبدو أصغر حجمًا أو محجوبة جزئيًا أبعد مسافة، بينما تشير التفاصيل الأكثر وضوحًا والمظاهر البصرية الأكبر حجمًا عادةً إلى أن الشيء أقرب.

لتعلم هذه الأنماط، يتم تدريب نماذج العمق الأحادية العين على مجموعات بيانات صور واسعة النطاق، وغالبًا ما يتم إقرانها بمعلومات العمق التي يتم الحصول عليها من مصادر أخرى مثل LiDAR أو أنظمة الاستريو. أثناء التدريب، تتعلم النماذج كيفية ارتباط الإشارات البصرية بالعمق، مما يسمح لها باستنتاج المسافة من صورة واحدة في وقت الاستنتاج.

بفضل تنوع بيانات التدريب، يمكن لنماذج الرؤية الحديثة تعميم هذا الفهم المكتسب على نطاق واسع من البيئات، بما في ذلك المشاهد الداخلية والخارجية، ويمكنها التعامل مع وجهات نظر غير مألوفة.

نظرة على مختلف تقنيات تقدير العمق الأحادي العين

بعد ذلك، سوف نستكشف الأساليب الرئيسية المستخدمة لتقدير العمق من صورة واحدة وكيف تطورت هذه الأساليب بمرور الوقت.

النهج الكلاسيكي والنهج القائم على الهندسة

اعتمدت طرق تقدير العمق المبكرة على قواعد بصرية مباشرة مرتبطة بهندسة الكاميرا. تم استخدام إشارات مثل المنظور وحجم الكائن وما إذا كان كائن ما يحجب كائنًا آخر لتقدير المسافة. 

على سبيل المثال، عندما ظهر جسمان متشابهان بأحجام مختلفة، كان يُفترض أن الجسم الأصغر أبعد مسافة. كانت هذه الأساليب تعمل بشكل جيد في البيئات الخاضعة للرقابة حيث تظل عوامل مثل الإضاءة وموضع الكاميرا وتصميم المشهد ثابتة.

ومع ذلك، في المشاهد الواقعية، غالبًا ما تنهار هذه الافتراضات. يمكن أن تؤدي الاختلافات في الإضاءة وتغيرات زاوية الرؤية وزيادة تعقيد المشهد إلى تقديرات عمق غير موثوقة، مما يحد من فعالية الطرق الكلاسيكية في البيئات غير الخاضعة للرقابة.

مناهج التعلم الآلي المبكرة

أضفت طرق التعلم الآلي المبكرة مزيدًا من المرونة على تقدير العمق من خلال تعلم الأنماط مباشرة من البيانات. بدلاً من الاعتماد فقط على القواعد الهندسية الثابتة، حاولت هذه النماذج تعلم العلاقة بين المعلومات البصرية والمسافة، معاملة توقع العمق كمشكلة انحدار بناءً على إشارات مثل الحواف والأنسجة وتغيرات الألوان.

كان اختيار هذه الميزات جزءًا أساسيًا من العملية. كان على المهندسين تحديد الإشارات المرئية التي سيتم استخلاصها وكيفية تمثيلها، وكان أداء النموذج يعتمد بشكل كبير على تلك الاختيارات.

على الرغم من أن هذا النهج كان أكثر فعالية من الأساليب السابقة، إلا أنه كان لا يزال يعاني من بعض القيود. فإذا كانت الميزات المختارة تفتقر إلى سياق مهم، كانت توقعات العمق أقل دقة. ومع ازدياد تعقيد المشاهد وتنوعها، غالبًا ما كانت هذه النماذج تواجه صعوبة في تقديم نتائج موثوقة.

خوارزميات التعلم العميق

تستخدم معظم أنظمة تقدير العمق الأحادية العين الحديثة التعلم العميق، الذي يشير إلى الشبكات العصبية ذات الطبقات المتعددة التي يمكنها تعلم أنماط معقدة من البيانات. تتعلم هذه النماذج توقع العمق مباشرة من الصور وإنتاج خرائط العمق.

يتم بناء العديد من الأساليب باستخدام الشبكات العصبية التلافيفية (CNNs)، وهي نوع من الشبكات العصبية المصممة لمعالجة الصور عن طريق الكشف عن الأنماط مثل الحواف والأشكال. غالبًا ما تستخدم هذه النماذج إعدادًا للمشفّر والمفكّك: يستخرج المشفّر السمات المرئية من الصورة، ويقوم المفكّك بتحويل هذه السمات إلى خريطة عمق. تساعد معالجة الصورة على مستويات متعددة النموذج على التقاط التخطيط العام للمشهد مع الاستمرار في التقاط حدود الكائنات بوضوح.

تركز النماذج الأحدث على فهم العلاقات بين الأجزاء المختلفة من الصورة. تستخدم النماذج القائمة على المحولات (Transformer) ومحولات الرؤية (Vision Transformer) آليات الانتباه، التي تسمح للنموذج بتحديد المناطق الأكثر صلة في الصورة وربط المناطق البعيدة ببعضها البعض. وهذا يساعد النموذج على بناء فهم أكثر اتساقًا للعمق في المشهد بأكمله.

تجمع بعض الأنظمة بين هاتين الفكرتين. تستخدم نماذج CNN–Transformer الهجينة شبكات CNN لالتقاط التفاصيل المحلية الدقيقة، وتستخدم Transformers لنمذجة السياق العام للمشهد. ورغم أن هذا غالبًا ما يحسن الدقة، إلا أنه يتطلب عادةً موارد حاسوبية أكبر، مثل ذاكرة إضافية وقدرة معالجة أكبر.

لماذا الفهم العميق مهم لأنظمة الذكاء الاصطناعي البصري

أثناء تعلمك عن تقدير العمق الأحادي العين، قد تتساءل عن سبب أهمية فهم العمق في أنظمة الذكاء الاصطناعي القائمة على الرؤية.

عندما يتمكن النظام من تقدير المسافة بين الأجسام والأسطح، فإنه يكتسب فهماً أفضل لكيفية توزيع المشهد وكيفية ارتباط العناصر المختلفة ببعضها البعض. هذا النوع من الوعي المكاني ضروري لاتخاذ قرارات موثوقة، خاصة في التطبيقات الواقعية مثل القيادة الذاتية.

تضيف معلومات العمق أيضًا سياقًا قيمًا إلى مهام الرؤية الحاسوبية الأخرى. على سبيل المثال، يمكن أن يحدد اكتشاف الكائنات، المدعوم بنماذج مثل Ultralytics ، للنظام ما هو موجود في المشهد، ولكن العمق يساعد في تحديد مكان تلك الكائنات بالنسبة للكاميرا وبالنسبة لبعضها البعض.

تتيح هذه القدرات مجتمعةً مجموعة واسعة من تطبيقات الذكاء الاصطناعي للرؤية، مثل إنشاء خرائط ثلاثية الأبعاد، والتنقل في بيئات معقدة، وفهم المشهد ككل. 

تعتمد الروبوتات والمركبات ذاتية القيادة على هذه المعلومات للتحرك بأمان وتجنب العقبات والاستجابة للتغيرات في الوقت الفعلي. على سبيل المثال، تعتمد طريقة القيادة المعتمدة على الرؤية فقط من Tesla على صور الكاميرا مقترنة بتقدير العمق، بدلاً من LiDAR، لفهم مدى بعد الأجسام وموقعها على الطريق.

كيف تعمل نماذج تقدير العمق الأحادي العين

على الرغم من اختلاف هياكل النماذج، فإن معظم نماذج تقدير العمق الأحادي العين تتبع عملية مماثلة لتحويل صورة واحدة إلى خريطة عمق. فيما يلي نظرة عامة سريعة على الخطوات الرئيسية المتضمنة:

  • الإدخال والمعالجة المسبقة: يبدأ سير العمل بصورة مدخلة. قبل تمريرها إلى النموذج، عادةً ما يتم تغيير حجم الصورة الأصلية وتوحيدها وتحويلها إلى tensor وهو تنسيق تستخدمه الشبكات العصبية لمعالجة بيانات الصور بكفاءة.
  • استخراج الميزات: تقوم شبكة التشفير بتحليل الصورة لاستخراج الميزات البصرية المهمة. تلتقط هذه الميزات معلومات مثل الأنسجة وحدود الكائنات والتصميم العام للمشهد. تعمل معظم النماذج على مستويات متعددة حتى تتمكن من فهم التفاصيل الدقيقة والبنية العامة.
  • التفكير العميق: باستخدام الميزات المستخرجة، يجمع النموذج بين التفاصيل المحلية والسياق العام للتفكير في العلاقات المكانية في المشهد. في هذه المرحلة، يتعلم النموذج أي مناطق الصورة أقرب إلى الكاميرا وأيها أبعد عنها.
  • إنشاء خريطة العمق: يقوم جهاز فك التشفير بعد ذلك بتحويل هذه المعلومات إلى خريطة عمق كثيفة. يتم تعيين قيمة عمق لكل بكسل في الصورة، غالبًا عن طريق مزج التنبؤات من مستويات مختلفة لتحسين الدقة والاتساق.

كيف يتم تدريب نماذج تقدير العمق الأحادي العين

تفترض العملية التي ناقشناها للتو أن لدينا بالفعل نموذجًا مدربًا أو مسبقًا. ولكن كيف يعمل تدريب نموذج تقدير العمق الأحادي العين في الواقع؟

يبدأ التدريب بإعداد بيانات الصور بحيث يمكن معالجتها بكفاءة بواسطة الشبكة. يتم تغيير حجم الصور المدخلة وتوحيدها إلى مقياس ثابت، ثم تمر عبر النموذج لإنشاء خريطة عمق متوقعة تقدر المسافة عند كل بكسل.

ثم تتم مقارنة خريطة العمق المتوقعة ببيانات العمق المرجعية باستخدام دالة الخسارة، التي تقيس مدى بعد توقعات النموذج عن عمق الحقيقة الأرضية. تمثل قيمة الخسارة هذه الخطأ الحالي للنموذج وتوفر إشارة للتحسين.

يستخدم المحسن هذه الإشارة لتحديث النموذج عن طريق تعديل أوزانه الداخلية. للقيام بذلك، يحسب المحسن التدرج، الذي يصف كيفية تغير الخسارة بالنسبة لكل معلمة من معلمات النموذج، ويطبق هذه التحديثات بشكل متكرر على مدى عدة فترات زمنية، أو يمر بشكل كامل عبر مجموعة بيانات التدريب.

يتم توجيه عملية التدريب التكراري الخاضع للإشراف هذه بواسطة معلمات فائقة مثل معدل التعلم، الذي يتحكم في حجم كل خطوة تحديث، وحجم الدفعة، الذي يحدد عدد الصور التي تتم معالجتها في وقت واحد. نظرًا لأن التدريب ينطوي على عدد كبير من العمليات الحسابية، فإنه عادةً ما يتم تسريعه باستخدام وحدة معالجة الرسومات (GPU)، والتي تعتبر رائعة للحساب المتوازي.

بمجرد اكتمال التدريب، يتم تقييم النموذج باستخدام مقاييس تقييم قياسية على مجموعة التحقق، والتي تتكون من صور لم يتم استخدامها أثناء التدريب. يساعد هذا التقييم في قياس مدى جودة تعميم النموذج على البيانات الجديدة. 

يمكن بعد ذلك إعادة استخدام النموذج المدرب أو ضبطه بدقة لسيناريوهات جديدة. بشكل عام، تتيح عملية التدريب هذه لنماذج تقدير العمق الأحادية العين إنتاج تقديرات عمق متسقة، وهي أمر ضروري للمهام اللاحقة مثل إعادة البناء ثلاثي الأبعاد والنشر في العالم الحقيقي.

استكشاف أحدث النماذج والاتجاهات البحثية

تحسنت تقديرات العمق الأحادي العين بسرعة مع تحسن قدرة النماذج على فهم المشاهد بأكملها بدلاً من مجرد التفاصيل البصرية الصغيرة. غالبًا ما كانت الأساليب السابقة تنتج خرائط عمق غير متساوية، خاصة في البيئات المعقدة. 

تركز النماذج الأحدث، كما يتضح من الأبحاث الحديثة المنشورة على arXiv، بشكل أكبر على السياق العالمي، مما يؤدي إلى تنبؤات عميقة تبدو أكثر استقرارًا وواقعية. ساعدت النماذج المعروفة مثل MiDaS و DPT في دفع هذا التحول من خلال تعلم العمق من مجموعات بيانات متنوعة وعالية الدقة وتعميمها بشكل جيد عبر العديد من المشاهد. 

وتستند النماذج الأحدث، بما في ذلك ZoeDepth و Depth Anything V2، إلى هذا العمل من خلال تحسين اتساق المقياس مع الحفاظ على أداء قوي عبر مجموعة واسعة من الإعدادات. وغالبًا ما يُقاس هذا النوع من التقدم باستخدام مجموعات بيانات قياسية شائعة مثل KITTI و NYU، والتي تغطي المشاهد الخارجية والداخلية على حد سواء. 

هناك اتجاه واضح آخر يتمثل في تحقيق التوازن بين الدقة والعملية. تم تحسين النماذج الأصغر حجماً من حيث السرعة ويمكن تشغيلها في الوقت الفعلي على الأجهزة المتطورة أو الأجهزة المحمولة، بينما تمنح النماذج الأكبر حجماً الأولوية للدقة العالية والعمق طويل المدى. 

تطبيقات تقدير العمق الأحادي العين

بعد ذلك، دعونا نستعرض بعض الأمثلة الواقعية التي توضح كيفية استخدام تقدير العمق الأحادي العين لاستنتاج البنية ثلاثية الأبعاد لمشهد ما من صورة واحدة. 

في جميع هذه الحالات، من المهم أن نضع في اعتبارنا أن معلومات العمق هي تقدير مستنتج من الإشارات البصرية، وليست قياسًا دقيقًا. وهذا يجعل تقدير العمق الأحادي العين مفيدًا لفهم التخطيط النسبي والعلاقات المكانية، ولكنه لا يحل محل أجهزة الاستشعار المصممة لقياس المسافة بدقة، مثل أنظمة LiDAR أو الأنظمة الاستريو.

رسم خرائط التضاريس والملاحة باستخدام الطائرات بدون طيار

غالبًا ما تعمل الطائرات بدون طيار في بيئات لا يمكن الاعتماد فيها على إشارات GPS، مثل الغابات ومواقع البناء ومناطق الكوارث أو المناطق الحضرية المكتظة. وللطيران بأمان في هذه الظروف، تحتاج هذه الطائرات إلى فهم التضاريس المحيطة ومعرفة المسافة التي تبعدها العوائق. في الماضي، كان هذا يتطلب عادةً إضافة أجهزة استشعار مثل LiDAR أو الكاميرات الاستريو، مما يزيد من الوزن واستهلاك الطاقة والتكلفة الإجمالية.

يعد تقدير العمق الأحادي العين بديلاً أبسط. باستخدام كاميرا RGB واحدة فقط، يمكن للطائرات بدون طيار تقدير العمق من الصور وبناء فهم ثلاثي الأبعاد أساسي لبيئتها. وهذا يتيح لها detect مثل المباني والأشجار أو التغيرات المفاجئة في التضاريس وتعديل مسار طيرانها في الوقت الفعلي.

تدعم تقديرات العمق هذه مهام الملاحة الرئيسية، بما في ذلك تجنب العوائق والتحكم في الارتفاع والهبوط الآمن. ونتيجة لذلك، يمكن للطائرات بدون طيار خفيفة الوزن أداء مهام رسم الخرائط والتفتيش والملاحة دون الاعتماد على أجهزة استشعار عمق متخصصة.

الشكل 2. يمكن استخدام تقدير العمق الأحادي العين لتحليل صور الطائرات بدون طيار (المصدر)

سد الثغرات في مجال المركبات ذاتية القيادة المخصصة للسباقات

تعتمد المركبات ذاتية القيادة عادةً بشكل كبير على مستشعرات LiDAR، التي تستخدم نبضات الليزر لقياس المسافة وإنشاء عرض ثلاثي الأبعاد للطريق. على الرغم من دقتها العالية، إلا أن LiDAR قد تواجه صعوبات في التعامل مع قمم الطرق الحادة والمنحدرات الشديدة والانسداد أو الميل المفاجئ للمركبة، مما يؤدي أحيانًا إلى عودة بيانات عمق متفرقة أو مفقودة.

يمكن أن يساعد تقدير العمق الأحادي العين في سد هذه الثغرات من خلال توفير معلومات كثيفة عن العمق من صورة RGB واحدة، حتى عندما تكون بيانات LiDAR غير كاملة. لنفترض سيناريو تقترب فيه سيارة ذاتية القيادة من قمة تل بسرعة. يمكن أن تتجاوز أشعة LiDAR الطريق وراء القمة، مما يترك عدم يقين بشأن ما يوجد أمامها. 

ومع ذلك، لا يزال بإمكان تقدير العمق باستخدام الكاميرا استنتاج شكل الطريق من الإشارات البصرية مثل المنظور والملمس، مما يساعد السيارة على الحفاظ على إدراك موثوق به حتى تستقر بيانات LiDAR. معًا، يتيح LiDAR وتقدير العمق الأحادي العين إدراكًا أكثر استقرارًا وتحكمًا أكثر أمانًا في ظروف القيادة الصعبة.

الشكل 3. تصور لاستخدام تقدير العمق الأحادي العين في السباقات المستقلة (المصدر)

الملاحة الروبوتية وتجنب العوائق

غالبًا ما يتم تشغيل الروبوتات في أماكن لا تتوفر فيها خرائط تفصيلية، وتغير الظروف فيها باستمرار. وللتحرك بأمان، تحتاج الروبوتات إلى إحساس موثوق به بمساحة المكان المحيط بها وموقع العوائق. 

يمكن أن يوفر تقدير العمق الأحادي العين هذا الإدراك المكاني باستخدام كاميرا RGB واحدة، دون الاعتماد على أجهزة ثقيلة أو باهظة الثمن. من خلال تعلم الإشارات البصرية مثل المقياس والمنظور، يمكن لنماذج تقدير العمق إنشاء خرائط عمق كثيفة للمحيط. وهذا يمنح الروبوتات رؤية واضحة للمسافة إلى الأسطح والأجسام.

على وجه الخصوص، عندما يتم دمج معلومات العمق مع مهام الرؤية الحاسوبية مثل اكتشاف الأجسام والتقسيم الدلالي، يمكن للروبوتات الحصول على رؤية أكثر شمولية لبيئتها. يمكنها تحديد الأجسام وفهم المسافة بينها وتحديد الأماكن الآمنة للتحرك. وهذا يدعم تجنب العوائق واكتشاف المساحات الخالية وتخطيط المسار في الوقت الفعلي.

الشكل 4. اكتشاف الأجسام باستخدام تقدير العمق الأحادي العين واكتشاف الأجسام (المصدر)

إيجابيات وسلبيات تقدير العمق الأحادي العين

فيما يلي بعض المزايا الرئيسية لاستخدام تقدير العمق الأحادي العين:

  • خفيفة الوزن وموفرة للطاقة: استخدام كاميرا واحدة يقلل من وزن النظام واستهلاك الطاقة، وهو أمر مهم بشكل خاص للروبوتات المتنقلة والطائرات بدون طيار والأنظمة المدمجة.
  • متوافق مع دمج أجهزة الاستشعار: يمكن أن يكمل عمق العين الواحدة أجهزة الاستشعار الأخرى، مثل LiDAR أو الرادار، عن طريق سد الثغرات أو توفير التكرار.
  • يعمل في العديد من البيئات: يمكن استخدام نفس النهج القائم على الكاميرا في الأماكن المغلقة والمفتوحة وعبر منصات مختلفة دون الحاجة إلى تغييرات في الأجهزة.

على الرغم من أن تقدير العمق الأحادي العين يقدم مزايا واضحة، إلا أن هناك بعض القيود التي يجب أخذها في الاعتبار:

  • دقة أقل من أجهزة الاستشعار النشطة: على الرغم من التحسن السريع، لا يمكن لتقدير العمق الأحادي العين عمومًا أن يضاهي الدقة المطلقة لأجهزة LiDAR أو أجهزة الاستشعار بالضوء المنظم في الظروف الخاضعة للرقابة.
  • الحساسية لظروف الإضاءة: قد يتدهور الأداء في البيئات منخفضة الإضاءة أو في ظل الظلال القوية أو الوهج أو المشاهد ذات النسيج الضعيف.
  • تحديات التعميم: قد لا يكون من الممكن دائمًا نقل نموذج تم تدريبه في بيئة معينة إلى مجالات غير معروفة بشكل موثوق دون إجراء تعديلات أو ضبط دقيق.

متى لا يجب الاعتماد على تقدير العمق الأحادي العين

في حين أن تقدير العمق الأحادي العين مجال بحث مثير للاهتمام، من المهم فهم المجالات التي يمكن استخدامه فيها عمليًا والمجالات التي لا يمكن استخدامه فيها. المسافات التي ينتجها هي تقديرات تستند إلى ما يراه النموذج في الصورة، وليست قياسات دقيقة مأخوذة من العالم الحقيقي.

وبسبب ذلك، يمكن أن تتغير جودة النتائج اعتمادًا على عوامل مثل الإضاءة وتعقيد المشهد ومدى تشابه المشهد مع ما تم تدريب النموذج عليه. عادةً ما يكون تقدير العمق الأحادي العين جيدًا في تحديد ما هو أقرب وما هو أبعد، ولكنه غير موثوق به عندما تحتاج إلى مسافات دقيقة.

في الحالات التي يكون فيها الدقة أمرًا بالغ الأهمية، مثل الأنظمة الحساسة من الناحية الأمنية، أو الفحص الصناعي، أو الروبوتات التي تحتاج إلى التفاعل بدقة شديدة مع الأشياء، يجب قياس العمق مباشرة. تم تصميم أجهزة الاستشعار مثل LiDAR والرادار والكاميرات الاستريو أو أنظمة الضوء المنظم لهذا الغرض، وهي توفر معلومات أكثر موثوقية عن المسافة.

قد يواجه تقدير العمق الأحادي العين صعوبات في الظروف البصرية الصعبة. فقد تؤدي الإضاءة الضعيفة، والظلال القوية، والأسطح العاكسة أو الشفافة، والضباب، والدخان، أو المشاهد ذات النسيج البصري الضئيل إلى تقليل موثوقية تقديرات العمق. ويعد تقدير العمق على مسافات طويلة حالة أخرى تعمل فيها المستشعرات المخصصة بشكل أفضل عادةً.

عندما يتعلق الأمر بالحلول الواقعية، فإن تقدير العمق الأحادي العين يعمل بشكل أفضل كأداة داعمة وليس كحل مستقل. يمكن أن يضيف سياقًا مكانيًا مفيدًا، ويساعد في سد الثغرات عندما تكون أجهزة الاستشعار الأخرى محدودة، ويحسن الفهم العام للمشهد. ومع ذلك، لا ينبغي أن يكون المصدر الوحيد لمعلومات العمق عندما تكون الدقة أو السلامة أو متطلبات الموثوقية الصارمة مهمة.

النقاط الرئيسية

تقدير العمق الأحادي العين هو تقنية رؤية حاسوبية تمكّن الآلات من تقدير المسافة بين الأجسام باستخدام صورة واحدة فقط من الكاميرا. من خلال تعلم الإشارات البصرية مثل المنظور وحجم الجسم والملمس والتظليل، يمكن لهذه النماذج من الذكاء الاصطناعي استنتاج البنية ثلاثية الأبعاد للمشهد دون الاعتماد على أجهزة استشعار مثل LiDAR أو الكاميرات الاستريو. وهذا يجعل تقدير العمق الأحادي العين نهجًا فعالاً من حيث التكلفة وقابلاً للتطوير لتطبيقات مثل القيادة الذاتية والروبوتات وفهم المشاهد ثلاثية الأبعاد.

لمعرفة المزيد عن Vision AI، تفضل بزيارة مستودع GitHub الخاص بنا وانضم إلى مجتمعنا. اطلع على صفحات الحلول الخاصة بنا للتعرف على الذكاء الاصطناعي في مجال الروبوتات والرؤية الحاسوبية في التصنيع. اكتشف خيارات الترخيص المتاحة لدينا لبدء استخدام الرؤية الحاسوبية اليوم!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا