الدليل الشامل لأدوات تقدير الوضعيات

بصفتنا بشرًا، فإننا نقرأ الحركات بشكل غريزي. عندما يميل شخص ما إلى الأمام، أو يدير رأسه، أو يرفع ذراعه، يمكنك على الفور استنتاج ما يفعله. إنها مهارة هادئة، تكاد تكون لا شعورية، تشكل طريقة تفاعلنا مع الناس واستكشافنا للعالم.

مع تزايد دور التكنولوجيا في حياتنا اليومية، من الطبيعي أن نرغب في أن تفهم أجهزتنا الحركات بنفس السلاسة التي نفهمها نحن. وقد أصبح ذلك ممكناً بفضل التطورات الحديثة في مجال الذكاء الاصطناعي، لا سيما التطورات القائمة على التعلم العميق. وتساعد الرؤية الحاسوبية على وجه الخصوص الآلات على استخلاص المعنى من الصور ومقاطع الفيديو، وهي المحرك الرئيسي لهذا التقدم.

على سبيل المثال، يعد تقدير الوضع مهمة شائعة في مجال الرؤية الحاسوبية تتنبأ بمواقع نقاط محددة مسبقًا في الجسم (مثل الكتفين والمرفقين والوركين والركبتين) في صورة أو إطار فيديو. يمكن ربط هذه النقاط باستخدام تعريف هيكلي ثابت لتشكيل تمثيل مبسط للوضع.

نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 و Ultralytics القادم تدعم مهام مثل تقدير الوضع ويمكن استخدامها لتشغيل تطبيقات في الوقت الفعلي، بما في ذلك التعليقات على النماذج في مجال اللياقة البدنية والرياضة، ومراقبة السلامة، وتجارب الواقع المعزز التفاعلية.

‍

الشكل 1. نظرة على استخدام Ultralytics YOLO11 الوضع (المصدر)

‍

في هذه المقالة، سنتعمق في أدوات تقدير الوضع ونرى كيف يعمل تقدير الوضع، وأين يتم استخدامه، وبعض من أفضل النماذج والمكتبات المتاحة اليوم. لنبدأ!

ما هو تقدير الوضعية؟

تقدير الوضع هو تقنية رؤية حاسوبية تساعد النظام على فهم كيفية وضع شخص أو كائن في صورة أو مقطع فيديو. بدلاً من تحليل كل بكسل على حدة، تتنبأ هذه التقنية بمجموعة من المعالم الثابتة، مثل الرأس والكتفين والمرفقين والوركين والركبتين والكاحلين.

تقوم معظم النماذج بإخراج إحداثيات هذه النقاط الرئيسية ودرجة تعكس مدى احتمالية صحة كل تنبؤ. يمكن بعد ذلك ربط هذه النقاط الرئيسية باستخدام تخطيط هيكلي محدد مسبقًا لتشكيل تمثيل بسيط للوضعية.

عند تطبيقها إطارًا بإطار في مقاطع الفيديو، يمكن ربط النقاط الرئيسية الناتجة بمرور الوقت لتقدير الحركة. وهذا يتيح تطبيقات مثل فحوصات النماذج وتحليل الحركة والتفاعل القائم على الإيماءات.

الشكل 2. مثال على تقدير الوضعية (المصدر)

الحاجة إلى أدوات تقدير الوضع

تحمل حركات الإنسان الكثير من المعلومات. فالطريقة التي ينحني بها الشخص أو يمتد أو ينقل وزنه يمكن أن تكشف عن نواياه أو مجهوده أو إرهاقه أو حتى خطر إصابته. وحتى وقت قريب، كان التقاط هذا المستوى من التفاصيل يتطلب عادة أجهزة استشعار متخصصة أو بدلات لالتقاط الحركة أو بيئات معملية خاضعة للرقابة.

تقدير الوضع يغير ذلك. استخراج المعالم الرئيسية للجسم من الصور العادية والفيديو يتيح للكمبيوتر تحليل الحركة باستخدام الكاميرات العادية. وهذا يجعل تحليل الحركة أكثر سهولة وقابلية للتطوير وعمليًا للاستخدام في بيئات العالم الحقيقي.

فيما يلي بعض الطرق التي يمكن أن يؤثر بها تقدير الوضع:

أماكن عمل أكثر أمانًا: يمكن استخدام الأنظمة التي تعتمد على الرؤية detect الأوضاع detect والإجهاد المتكرر، أو تقنيات الرفع غير الآمنة قبل وقوع الإصابات.
تحسين اللياقة البدنية والتدريب الرياضي: يمكن لحلول الرؤية بالذكاء الاصطناعي تقييم الشكل والتوازن والتقنية في الوقت الفعلي، مما يوفر للمستخدمين ملاحظات فورية دون الحاجة إلى أجهزة قابلة للارتداء.
الرعاية الصحية وإعادة التأهيل: يمكن للأطباء track تقدم track والوضعية ونطاق الحركة عن بُعد باستخدام تسجيلات فيديو بسيطة.
تجارب تفاعلية: يسهل تقدير الوضع على الأيقونات الرقمية والبيئات الغامرة متابعة حركة الإنسان وعكسها بدقة.

تطور خوارزميات تقدير الوضع

فكرة تقدير المواقف موجودة منذ سنوات عديدة. كانت الطرق القديمة تستخدم نماذج هندسية بسيطة وقواعد مصنوعة يدويًا، وكانت تعمل عادةً في ظروف خاضعة للرقابة فقط.

على سبيل المثال، قد يعمل النظام بشكل جيد عندما يقف الشخص في وضع ثابت، ولكنه يتعطل عندما يبدأ في المشي أو الدوران أو التفاعل مع الأشياء في مشاهد العالم الحقيقي. غالبًا ما تواجه هذه الأساليب صعوبات في التعامل مع الحركات الطبيعية وتغيير زوايا الكاميرا والخلفيات المزدحمة والحجب الجزئي.

يعتمد تقدير الوضع الحديث على التعلم العميق للتعامل مع هذه التحديات. من خلال تدريب الشبكات العصبية التلافيفية على مجموعات بيانات كبيرة مصنفة، تتعلم النماذج أنماطًا بصرية تساعدها detect بشكل أكثر موثوقية عبر مختلف الأوضاع والأشخاص والبيئات.

مع المزيد من الأمثلة، يحسن النموذج تنبؤاته ويصبح أفضل في التعميم على مشاهد جديدة. وبفضل هذا التقدم، يدعم تقدير الوضع الآن مجموعة واسعة من حالات الاستخدام العملي، بما في ذلك مراقبة مكان العمل وبيئة العمل، وتحليلات الرياضة، حيث يدرس المدربون والمحللون كيفية تحرك الرياضيين.

أنواع تقنيات تقدير الوضع

يأتي تقدير الوضع في عدة أشكال مختلفة، اعتمادًا على الإعدادات وما تحتاج إلى قياسه. فيما يلي الأنواع الرئيسية التي ستصادفها:

تقدير الوضع ثنائي الأبعاد: يكتشف هذا النهج النقاط الرئيسية للجسم في صورة ثنائية الأبعاد أو إطار فيديو. وهو يعمل بشكل جيد مع الكاميرات القياسية ويتميز بكفاءة حسابية، مما يجعله مناسبًا لمهام مثل تتبع الحركة الأساسية وتحليل الوضع وتقديم ملاحظات حول الشكل في الوقت الفعلي.
تقدير الوضع ثلاثي الأبعاد: من خلال تقدير العمق بالإضافة إلى إحداثيات الصورة، يوفر تقدير الوضع ثلاثي الأبعاد فهمًا مكانيًا لحركة الجسم. وهذا مفيد بشكل خاص عندما تكون الحركة الأمامية والخلفية مهمة، كما هو الحال في تحليل الرياضة وإعادة التأهيل والميكانيكا الحيوية والرسوم المتحركة. على وجه التحديد، يلتقط تقدير الوضع البشري ثلاثي الأبعاد مواقع المفاصل وحركتها في الفضاء ثلاثي الأبعاد، مما يقلل من الغموض الذي يمكن أن يحدث مع الإسقاطات ثنائية الأبعاد.
تقدير وضعية شخص واحد: تم تصميم هذه الأنظمة track شخص track في كل مرة. وهي تميل إلى الأداء الأفضل في البيئات الخاضعة للرقابة أو شبه الخاضعة للرقابة حيث يكون الشخص مرئيًا بوضوح، مثل تطبيقات التمارين الموجهة أو مكالمات الفيديو أو إعدادات تحليل الحركة.
تقدير الوضع لعدة أشخاص: صُمم هذا النهج للمشاهد التي تضم عدة أشخاص، حيث يكتشف ويتتبع أوضاع عدة أفراد في وقت واحد. وهو مفيد بشكل خاص في البيئات المزدحمة مثل أماكن العمل والصالات الرياضية والأماكن العامة والأنشطة الجماعية، حيث قد يتداخل الأشخاص أو يحجبون بعضهم البعض.

‍

الشكل 3. فهم حركة الإنسان في الفضاء ثلاثي الأبعاد مقابل الفضاء ثنائي الأبعاد للصورة (المصدر)

فهم كيفية عمل نماذج تقدير وضعية الإنسان

يمكن تطبيق تقدير الوضع على أنواع عديدة من الأشياء، ولكن لتبسيط الأمور، دعونا نركز على تقدير وضع الإنسان.

يتم تدريب معظم أنظمة تقدير وضعية الإنسان على مجموعات بيانات موضحة، حيث يتم تمييز أجزاء الجسم الرئيسية عبر مجموعات كبيرة من الصور وإطارات الفيديو. باستخدام هذه الأمثلة، يتعلم النموذج الأنماط البصرية المرتبطة بمعالم جسم الإنسان مثل الكتفين والمرفقين والوركين والركبتين والكاحلين، بحيث يمكنه التنبؤ بالنقاط الرئيسية بدقة في المشاهد الجديدة.

جانب آخر مهم هو بنية الاستدلال في النموذج، التي تحدد كيفية اكتشاف النقاط الرئيسية وتجميعها في أوضاع كاملة. بعض الأنظمة detect شخص أولاً ثم تقدر النقاط الرئيسية داخل منطقة كل شخص، بينما detect أنظمة أخرى detect عبر الصورة بأكملها ثم تجمعها في مجموعات أفراد. يمكن للتصميمات الحديثة أحادية المرحلة توقع الأوضاع في خطوة واحدة، مما يحقق التوازن بين السرعة والدقة للاستخدام في الوقت الفعلي.

بعد ذلك، دعونا نستعرض بالتفصيل مختلف طرق تقدير الوضع.

تقدير الوضع من الأسفل إلى الأعلى

في نهج تصاعدي، ينظر النموذج إلى الصورة بأكملها ويحدد أولاً النقاط الرئيسية للجسم، مثل الرأس والكتفين والمرفقين والوركين والركبتين والكاحلين. في هذه المرحلة، لا يحاول النموذج فصل الأشخاص عن بعضهم البعض. إنه يكتشف ببساطة جميع النقاط الرئيسية أو مفاصل الجسم المحددة بواسطة الهيكل العظمي للوضعية في المشهد.

بعد ذلك، يقوم النظام بخطوة ثانية لربط النقاط. فهو يربط النقاط الرئيسية التي تنتمي معًا ويجمعها في هياكل عظمية كاملة، واحدة لكل شخص. نظرًا لأنه لا يحتاج إلى detect شخص أولاً، غالبًا ما تعمل الطرق التصاعدية بشكل جيد في المشاهد المزدحمة حيث يتداخل الأشخاص أو يظهرون بأحجام مختلفة أو يكونون مخفيين جزئيًا.

الكشف عن الوضع من أعلى إلى أسفل

في المقابل، تبدأ الأنظمة التنازلية أولاً باكتشاف كل شخص في الصورة. وتضع مربعاً حول كل فرد وتعامل كل مربع على أنه منطقة مستقلة لتحليلها.

بمجرد عزل الشخص، يتنبأ النموذج بنقاط الجسم الرئيسية داخل تلك المنطقة. غالبًا ما ينتج عن هذا الإعداد التدريجي نتائج دقيقة للغاية، خاصةً عندما يكون هناك عدد قليل من الأشخاص في المشهد، ويكون كل شخص مرئيًا بوضوح.

تقدير الوضع أحادي المرحلة أو الهجين

تتنبأ النماذج أحادية المرحلة، التي تسمى أحيانًا بالنماذج الهجينة، بالوضعيات في خطوة واحدة. فبدلاً من تشغيل خاصية الكشف عن الأشخاص أولاً وتقدير النقاط الرئيسية ثانيًا، فإنها تعرض موقع الشخص ونقاط الجسم الرئيسية في نفس الوقت.

نظرًا لأن كل شيء يحدث في وحدة واحدة، غالبًا ما تكون هذه النماذج أسرع وأكثر كفاءة، مما يجعلها مناسبة تمامًا للاستخدامات في الوقت الفعلي مثل تتبع الحركة الحية والتقاط الحركة.YOLO11 تصميم نماذج مثل Ultralytics YOLO11 بناءً على هذه الفكرة، بهدف تحقيق التوازن بين السرعة والتنبؤات الموثوقة للنقاط الرئيسية.

تدريب وتقييم نماذج تقدير الوضع

بغض النظر عن النهج المستخدم، لا يزال نموذج تقدير الوضع بحاجة إلى التدريب والاختبار بعناية قبل أن يصبح موثوقًا في العالم الحقيقي. وعادةً ما يتعلم من مجموعات كبيرة من الصور (وأحيانًا مقاطع الفيديو) حيث يتم تمييز النقاط الرئيسية للجسم، مما يساعده على التعامل مع أوضاع مختلفة وزوايا الكاميرا والبيئات.

تتضمن بعض مجموعات البيانات المعروفة لتقدير الوضع COCO و MPII Human Pose و CrowdPose و OCHuman. عندما لا تعكس مجموعات البيانات هذه الظروف التي سيواجهها النموذج عند النشر، غالبًا ما يقوم المهندسون بجمع وتصنيف صور إضافية من الإعداد المستهدف، مثل أرضية المصنع أو صالة الألعاب الرياضية أو العيادة.

الشكل 4. تقدير أوضاع مختلفة باستخدام الرؤية الحاسوبية (المصدر)

‍

بعد التدريب، يتم تقييم أداء النموذج وفقًا لمعايير قياسية لقياس الدقة والمتانة وتوجيه المزيد من الضبط للاستخدام في العالم الحقيقي. غالبًا ما يتم الإبلاغ عن النتائج باستخدام متوسط الدقة المتوسط، الذي يشار إليه عادةً باسم mAP والذي يلخص الأداء عبر عتبات ثقة مختلفة من خلال مقارنة الوضعيات المتوقعة بالحقيقة الميدانية الموسومة.

في العديد من معايير قياس الوضع، يتم مطابقة الوضع المتوقع مع الوضع الفعلي باستخدام تشابه نقاط مرجعية الكائن (OKS). يقيس OKS مدى قرب النقاط المرجعية المتوقعة من النقاط المرجعية المُعلّقة، مع مراعاة عوامل مثل حجم الشخص وصعوبة تحديد موقع كل نقطة مرجعية.

تقوم نماذج الوضع أيضًا بإخراج درجات الثقة للأشخاص المكتشفين وللنقاط الرئيسية الفردية. تعكس هذه الدرجات ثقة النموذج وتُستخدم لتصنيف التنبؤات وتصفيتها، وهو أمر مهم بشكل خاص في الظروف الصعبة مثل الانسداد أو ضبابية الحركة أو زوايا الكاميرا غير العادية.

أدوات ومكتبات تقدير الوضع الشائعة

تتوفر اليوم العديد من أدوات تقدير الوضع، وتوازن كل منها بين السرعة والدقة وسهولة الاستخدام. فيما يلي بعض الأدوات والمكتبات الأكثر استخدامًا:

Ultralytics YOLO11: تم تطوير YOLO11 كنموذج متطور مفتوح المصدر للذكاء الاصطناعي البصري، YOLO11 على نماذج سابقة مثل Ultralytics YOLOv8. وهو يحسن السرعة والدقة والكفاءة العامة مع دعم مهام الرؤية الحاسوبية المختلفة، بما في ذلك تقدير الوضع. بفضل أدائه القوي عبر المنصات، من أجهزة الكمبيوتر المحمولة إلى الأجهزة الطرفية، YOLO11 خيارًا رائعًا للعديد من عمليات النشر في العالم الحقيقي.
Ultralytics : تم تصميم هذا النموذج من الجيل التالي ليكون أخف وزناً وأصغر حجماً وأسرع، مع الحفاظ على دقة عالية. وهو مصمم للاستخدام في الوقت الفعلي وسهولة النشر، ويدعم مهام مثل اكتشاف الكائنات وتقسيم الحالات وتقدير الوضع عبر أحجام النماذج المناسبة لكل شيء بدءاً من الأجهزة الطرفية وحتى الأنظمة الأكبر حجماً.
MediaPipe: هو إطار عمل متعدد المنصات لبناء خطوط أنابيب للرؤية والتعلم الآلي. وهو خفيف الوزن ويعمل بكفاءة على الأجهزة المحمولة والأجهزة اللوحية وتطبيقات الويب، ويتضمن حلولاً ونماذج جاهزة للاستخدام لوضع الجسم بالكامل ومعالم الوجه وتتبع اليد.
OpenPose: هذا النظام المفتوح المصدر لتقدير الوضعيات معروف على نطاق واسع بقدرته على اكتشاف النقاط الرئيسية لعدة أشخاص. يمكنه تقدير النقاط الرئيسية للجسم واليد والوجه معًا، ويستخدم عادةً في الأبحاث والرسوم المتحركة وتحليل الحركة.
MMPose: MMPose هي مجموعة أدوات تقدير الوضع PyTorch من نظام OpenMMLab البيئي. وهي توفر العديد من تطبيقات النماذج وأدوات التدريب وخيارات التكوين، مما يجعلها مفيدة للتجريب والتخصيص العميق.
HRNet و AlphaPose: هذان نموذجان قديمان لتقدير الوضع لا يزالان مستخدمين في الأبحاث حتى اليوم. HRNet هو بنية نموذجية للوضع تحافظ على ميزات الصور عالية الدقة في جميع أنحاء الشبكة، مما يساعدها على تحديد النقاط الرئيسية بدقة. AlphaPose هو نظام تقدير الوضع متعدد الأشخاص المستخدم على نطاق واسع، ويستخدم عادةً عندما تكون الدقة العالية مطلوبة في المشاهد المزدحمة أو المعقدة.

التطبيقات الواقعية لتحليل وتقدير الوضع

يتم استخدام تقدير الوضع بشكل متزايد لتحويل مقاطع الفيديو العادية إلى رؤى مفيدة حول الحركة. من خلال تتبع النقاط الرئيسية للجسم إطارًا بإطار، يمكن لهذه الأنظمة استنتاج الوضع والحركة والسلوك الجسدي من لقطات الكاميرا، مما يجعل هذه التكنولوجيا عملية في العديد من البيئات الواقعية.

على سبيل المثال، في مجال الرعاية الصحية وإعادة التأهيل، يمكن أن يساعد تتبع الوضع الأطباء على رؤية وقياس كيفية حركة المريض أثناء العلاج والشفاء. من خلال استخراج معالم الجسم من تسجيلات الفيديو العادية، يمكن استخدامه لتقييم الوضع، ونطاق الحركة، وأنماط الحركة العامة بمرور الوقت. يمكن أن تدعم هذه القياسات التقييمات السريرية التقليدية وتحسنها، وفي بعض الحالات، تسهل track دون الحاجة إلى أجهزة استشعار قابلة للارتداء أو معدات متخصصة.

وبالمثل، في مجال الرياضة والبث التلفزيوني، يمكن لتقدير الوضع تحليل كيفية تحرك الرياضيين مباشرة من مقاطع الفيديو. ومن الأمثلة المثيرة للاهتمام نظام Hawk-Eye، وهو نظام تتبع قائم على الكاميرا يستخدم في الرياضات الاحترافية للتحكيم والبث التلفزيوني. كما يوفر تتبع الهيكل العظمي من خلال تقدير النقاط الرئيسية لجسم الرياضي من خلال مشاهد الكاميرا.

اختيار أداة تقدير الوضع الصحيحة

يبدأ اختيار أداة تقدير الوضع المناسبة بفهم احتياجات مشروع الرؤية الحاسوبية الخاص بك. تمنح بعض التطبيقات الأولوية للسرعة في الوقت الفعلي، بينما تتطلب تطبيقات أخرى دقة وتفاصيل أعلى.

كما أن جهاز النشر المستهدف يحدث فرقًا أيضًا. تتطلب التطبيقات المحمولة والأجهزة الطرفية عادةً نماذج خفيفة الوزن وفعالة، في حين أن النماذج الأكبر حجمًا غالبًا ما تكون أكثر ملاءمة للخوادم أو البيئات السحابية.

بالإضافة إلى ذلك، يمكن أن تلعب سهولة الاستخدام دورًا في هذا الصدد. يمكن أن تؤدي التوثيق الجيد والنشر السلس ودعم التدريب المخصص إلى تبسيط مشروعك.

ببساطة، تختلف الأدوات في مجالات اختلافها. على سبيل المثال، توفر YOLO Ultralytics YOLO توازنًا عمليًا بين السرعة والدقة وسهولة النشر للعديد من تطبيقات تقدير الوضع في العالم الواقعي.

الشكل 5. تقدير وضعية الحيوان باستخدام Ultralytics YOLO11 المصدر)

النقاط الرئيسية

يساعد تقدير الوضع الحاسوبي الحواسيب على فهم حركة الإنسان من خلال الكشف عن النقاط الرئيسية للجسم في الصور والفيديو. تسهل نماذج مثل YOLO11 YOLO26 إنشاء تطبيقات في الوقت الفعلي لمجالات مثل الرياضة والرعاية الصحية والسلامة في مكان العمل والتجارب التفاعلية. مع استمرار زيادة سرعة النماذج ودقتها، من المرجح أن يصبح تقدير الوضع الحاسوبي ميزة شائعة في العديد من أنظمة الذكاء الاصطناعي البصري.

هل تريد معرفة المزيد عن الذكاء الاصطناعي؟ تحقق من مجتمعنا ومستودع GitHub. استكشف صفحات الحلول لدينا للتعرف على الذكاء الاصطناعي في مجال الروبوتات والرؤية الحاسوبية في التصنيع. اكتشف خيارات الترخيص لدينا وابدأ في البناء باستخدام الرؤية الحاسوبية اليوم!

الدليل الشامل لأدوات تقدير الوضعيات

ما هو تقدير الوضعية؟

الحاجة إلى أدوات تقدير الوضع

تطور خوارزميات تقدير الوضع

أنواع تقنيات تقدير الوضع