بالنقر على "قبول جميع ملفات تعريف الارتباط"، فإنك توافق على تخزين ملفات تعريف الارتباط على جهازك لتحسين تصفح الموقع وتحليل استخدام الموقع والمساعدة في جهودنا التسويقية. المزيد من المعلومات
إعدادات ملفات تعريف الارتباط
بالنقر على "قبول جميع ملفات تعريف الارتباط"، فإنك توافق على تخزين ملفات تعريف الارتباط على جهازك لتحسين تصفح الموقع وتحليل استخدام الموقع والمساعدة في جهودنا التسويقية. المزيد من المعلومات
من تطبيقات اللياقة البدنية إلى مراقبة المرضى، اكتشف كيف تعالج الرؤية الحاسوبية السؤال التالي: هل يمكن للذكاء الاصطناعي اكتشاف التصرفات البشرية في العالم الحقيقي؟
الحياة اليومية مليئة بالحركات الصغيرة التي نادراً ما نتوقف للتفكير فيها. قد يبدو لنا المشي في غرفة أو الجلوس على المكتب أو التلويح لصديق أمرًا سهلاً بالنسبة لنا، ولكن اكتشافها باستخدام الذكاء الاصطناعي أكثر تعقيدًا بكثير. ما يأتي بشكل طبيعي للبشر يترجم إلى شيء أكثر تعقيداً بكثير عندما تحاول الآلة فهمه.
تُعرف هذه القدرة باسم التعرّف على النشاط البشري (HAR)، وهي تمكّن أجهزة الكمبيوتر من اكتشاف وتفسير أنماط السلوك البشري. ويُعد تطبيق اللياقة البدنية مثالاً رائعاً على تطبيق التعرف على النشاط البشري. فمن خلال تتبع الخطوات والتمرين الروتيني، يُظهر التطبيق كيف يمكن للذكاء الاصطناعي مراقبة الأنشطة اليومية.
بدأت العديد من الصناعات في تبني هذه التقنية نظراً لإمكانياتها الكبيرة. في الواقع، من المتوقع أن يصل سوق التعرّف على الحركة البشرية إلى أكثر من 12.56 مليار دولار بحلول عام 2033.
ويُعزى جزء كبير من هذا التقدم إلى الرؤية الحاسوبية، وهي فرع من الذكاء الاصطناعي يمكّن الآلات من تحليل البيانات المرئية، مثل الصور ومقاطع الفيديو. وبفضل الرؤية الحاسوبية والتعرف على الصور، تطورت تقنية HAR من مفهوم بحثي إلى جزء عملي ومثير من تطبيقات الذكاء الاصطناعي المتطورة.
في هذه المقالة، سنستكشف ما هو الذكاء الاصطناعي للذكاء الاصطناعي والطرق المختلفة المستخدمة للتعرف على الأفعال البشرية، وكيف تساعد الرؤية الحاسوبية في الإجابة على السؤال: هل يمكن للذكاء الاصطناعي اكتشاف الأفعال البشرية في تطبيقات العالم الحقيقي؟ لنبدأ!
ما هو التعرف على الفعل البشري؟
يتيح التعرف على الحركة البشرية لأنظمة الكمبيوتر فهم الأنشطة أو الأفعال البشرية من خلال تحليل حركات الجسم. على عكس مجرد الكشف عن شخص ما في الصورة، يمكن أن تساعد تقنية HAR في تحديد ما يفعله الشخص. على سبيل المثال، التمييز بين المشي والركض، أو التعرف على التلويح باليد، أو ملاحظة سقوط شخص ما على الأرض.
يكمن أساس HAR في أنماط الحركة والوضعية. فالتغيير الطفيف في كيفية وضع ذراعي أو ساقي الإنسان يمكن أن يشير إلى مجموعة متنوعة من الإجراءات. من خلال التقاط هذه التفاصيل الدقيقة وتفسيرها، يمكن لأنظمة HAR الحصول على رؤى ذات مغزى من حركات الجسم.
ولتحقيق ذلك، يجمع التعرف على الحركة البشرية بين تقنيات متعددة مثل التعلم الآلي ونماذج التعلم العميق والرؤية الحاسوبية ومعالجة الصور، والتي تعمل معًا لتحليل حركات الجسم وتفسير الأفعال البشرية بدقة أعلى.
الشكل 1. يتضمن التعرف على النشاط البشري فروعاً مختلفة من علوم الحاسوب(المصدر)
كانت أنظمة HAR السابقة محدودة للغاية. ولم يكن بإمكانها التعامل إلا مع عدد قليل من الإجراءات البسيطة والمتكررة في بيئات خاضعة للرقابة وغالباً ما كانت تعاني في مواقف العالم الحقيقي.
أما اليوم، وبفضل الذكاء الاصطناعي والكميات الكبيرة من بيانات الفيديو، فقد تطورت تقنية HAR بشكل كبير من حيث الدقة والمتانة. يمكن للأنظمة الحديثة التعرف على مجموعة واسعة من الأنشطة بدقة أكبر بكثير، مما يجعل التكنولوجيا عملية في مجالات مثل الرعاية الصحية والأمن والأجهزة التفاعلية.
طرق مختلفة للكشف عن التصرفات البشرية
والآن بعد أن أصبح لدينا فهم أفضل لماهية التعرف على الأفعال البشرية، دعونا نلقي نظرة على الطرق المختلفة التي يمكن للآلات من خلالها اكتشاف الأفعال البشرية.
فيما يلي بعض الطرق الشائعة:
الأساليب القائمة على أجهزة الاستشعار: يمكن للأجهزة الذكية مثل أجهزة قياس التسارع والأجهزة القابلة للارتداء والهواتف الذكية التقاط الإشارات مباشرة من جسم الإنسان. ويمكنها أن تُظهر أنماط الحركة مثل المشي أو الجري أو حتى الوقوف بلا حراك. ويُعد عداد الخطوات على الساعة الذكية مثالاً رائعاً على هذه الطريقة.
الأساليب القائمة على الرؤية: تقوم الكاميرات المقترنة بالرؤية الحاسوبية بتحليل الصور ومقاطع الفيديو لتتبع شكل الجسم وحركته إطاراً بإطار. وهذا يتيح التعرف على الأنشطة الأكثر تعقيداً. تعتمد أجهزة التلفاز التي يتم التحكم فيها بالإيماءات أو أنظمة الألعاب على هذه الطريقة.
طرق متعددة الوسائط: وهي عبارة عن مزيج من أجهزة الاستشعار والكاميرات التي تخلق نظامًا أكثر موثوقية، حيث يمكن لأحد المصادر تأكيد ما يكتشفه الآخر. على سبيل المثال، قد يقوم الجهاز القابل للارتداء بتسجيل الحركة بينما تتحقق الكاميرا من وضعية الجسم، وهو إعداد يُستخدم غالباً في الكشف عن السقوط لرعاية المسنين.
دور مجموعات البيانات في التعرف على النشاط البشري
بالنسبة لأي نموذج أو نظام HAR، فإن مجموعات البيانات هي نقطة البداية. مجموعة بيانات HAR هي عبارة عن مجموعة من الأمثلة، مثل مقاطع الفيديو أو الصور أو بيانات أجهزة الاستشعار، التي تلتقط أفعالاً مثل المشي أو الجلوس أو التلويح. تُستخدم هذه الأمثلة لتدريب نماذج الذكاء الاصطناعي على التعرف على أنماط الحركة البشرية، والتي يمكن تطبيقها بعد ذلك في تطبيقات الحياة الواقعية.
تؤثر جودة بيانات التدريب بشكل مباشر على مدى جودة أداء النموذج. فالبيانات النظيفة والمتسقة تسهل على النظام التعرف على الإجراءات بدقة.
لهذا السبب غالبًا ما تتم معالجة مجموعات البيانات مسبقًا قبل التدريب. تتمثل إحدى الخطوات الشائعة في التطبيع، والذي يقيس القيم بشكل متسق لتقليل الأخطاء ومنع الإفراط في التكييف (عندما يكون أداء النموذج جيدًا على بيانات التدريب ولكنه يعاني مع البيانات الجديدة).
لقياس كيفية أداء النماذج بعد التدريب، يعتمد الباحثون على مقاييس التقييم ومجموعات البيانات المعيارية التي تسمح بإجراء اختبار ومقارنة عادلة. تشتمل المجموعات الشهيرة مثل UCF101 و HMDB51 و Kinetics على آلاف مقاطع الفيديو المصنفة للكشف عن الحركة البشرية. وعلى جانب أجهزة الاستشعار، توفر مجموعات البيانات التي تم جمعها من الهواتف الذكية والأجهزة القابلة للارتداء إشارات حركة قيّمة تجعل نماذج التعرّف أكثر قوة في بيئات مختلفة.
الشكل 2. لمحة عن مجموعة بيانات التعرف على النشاط البشري.(المصدر)
كيف تدعم الرؤية الحاسوبية التعرف على النشاط البشري
من بين الطرق المختلفة لاكتشاف الأفعال البشرية، سرعان ما أصبحت الرؤية الحاسوبية واحدة من أكثر الطرق شيوعًا والأكثر بحثًا على نطاق واسع. وتتمثل ميزتها الرئيسية في قدرتها على استخلاص تفاصيل غنية مباشرةً من الصور والفيديو. فمن خلال النظر إلى وحدات البكسل إطاراً بإطار وتحليل أنماط الحركة، يمكنها التعرف على الأنشطة في الوقت الفعلي دون الحاجة إلى ارتداء الأشخاص لأجهزة إضافية.
أدى التقدم الحديث في مجال التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNNs)، المصممة لتحليل الصور، إلى جعل الرؤية الحاسوبية أسرع وأكثر دقة وموثوقية.
على سبيل المثال، تعتمد نماذج الرؤية الحاسوبية الحديثة المستخدمة على نطاق واسع مثل Ultralytics YOLO11 على هذه التطورات. يدعم YOLO11 مهام مثل اكتشاف الأجسام، وتجزئة النماذج، وتتبع الأشخاص عبر إطارات الفيديو، وتقدير الوضعيات البشرية، مما يجعله أداة رائعة للتعرف على النشاط البشري.
نظرة عامة على Ultralytics YOLO11
إن Ultralytics YOLO11 هو نموذج ذكاء اصطناعي للرؤية مصمم للسرعة والدقة. وهو يدعم مهام الرؤية الحاسوبية الأساسية مثل اكتشاف الأجسام وتتبع الأجسام وتقدير الوضعية. هذه القدرات مفيدة بشكل خاص للتعرف على النشاط البشري.
يحدد اكتشاف الكائنات الأشخاص في المشهد ويحدد موقعهم، ويتتبع التتبع حركاتهم عبر إطارات الفيديو للتعرف على تسلسل الحركة، ويحدد تقدير الوضعية المفاصل الرئيسية لجسم الإنسان للتمييز بين الأنشطة المتشابهة أو اكتشاف التغيرات المفاجئة مثل السقوط.
على سبيل المثال، يمكن استخدام الرؤى المستخلصة من النموذج لمعرفة الفرق بين جلوس شخص ما بهدوء، ثم وقوفه، وأخيراً رفع ذراعيه للتشجيع. قد تبدو هذه التصرفات اليومية البسيطة متشابهة في لمحة خاطفة، لكنها تحمل معاني مختلفة تمامًا عند تحليلها في تسلسل.
الشكل 3. استخدام Ultralytics YOLO11 لتقدير الوضعية.(المصدر)
تطبيقات العالم الحقيقي للرؤية الحاسوبية وHAR
بعد ذلك، دعونا نلقي نظرة فاحصة على كيفية تطبيق التعرف على النشاط البشري المدعوم بالرؤية الحاسوبية في حالات الاستخدام الواقعية التي تؤثر على حياتنا اليومية.
الرعاية الصحية والرفاهية
في مجال الرعاية الصحية، يمكن أن توفر التغييرات الصغيرة في الحركة رؤى مفيدة حول حالة الشخص. على سبيل المثال، قد يكشف تعثر مريض مسن أو زاوية أحد الأطراف أثناء إعادة التأهيل عن وجود مخاطر أو تقدم في الحالة. غالباً ما يسهل تفويت هذه العلامات بالوسائل التقليدية، مثل الفحوصات.
يمكن أن يساعدك YOLO11 باستخدام تقدير الوضع وتحليل الصور لمراقبة المرضى في الوقت الفعلي. يمكن استخدامه لاكتشاف حالات السقوط وتتبع تمارين التعافي ومراقبة الأنشطة اليومية مثل المشي أو التمدد. ولأنه يعمل من خلال التحليل البصري دون الحاجة إلى أجهزة استشعار أو أجهزة يمكن ارتداؤها، فإنه يوفر طريقة بسيطة لجمع معلومات دقيقة تدعم رعاية المرضى.
الشكل 4. تتبع حركات الجسم باستخدام دعم YOLO11 لتقدير الوضعية.(المصدر)
الأمن والمراقبة
تعتمد أنظمة الأمن على اكتشاف الأنشطة البشرية غير الاعتيادية بسرعة، مثل تسكع شخص ما أو الجري في منطقة محظورة أو إظهار عدوانية مفاجئة. غالباً ما يتم تفويت هذه العلامات في البيئات المزدحمة حيث لا يستطيع حراس الأمن مراقبة كل شيء يدوياً. وهنا يأتي دور الرؤية الحاسوبية و YOLO11.
يجعل YOLO11 المراقبة الأمنية أسهل من خلال تشغيل المراقبة بالفيديو في الوقت الفعلي التي يمكنها اكتشاف التحركات المشبوهة وإرسال تنبيهات فورية. وهو يدعم سلامة الحشود في الأماكن العامة ويعزز الكشف عن التسلل في المناطق الخاصة.
من خلال هذا النهج، يمكن لحراس الأمن العمل جنباً إلى جنب مع أنظمة الرؤية الحاسوبية، مما يخلق تفاعلاً وشراكة بين الإنسان والحاسوب تتيح استجابات أسرع وفي الوقت المناسب للأنشطة المشبوهة.
إيجابيات وسلبيات استخدام الرؤية الحاسوبية في HAR
فيما يلي بعض مزايا استخدام الرؤية الحاسوبية للتعرف على النشاط البشري:
قابلية التوسع: بمجرد إعداده، يمكن لنظام التعرّف نفسه مراقبة عدة أشخاص تلقائيًا في وقت واحد، مما يجعله مفيدًا للأتمتة في مرافق الرعاية الصحية والمصانع والأماكن العامة.
المعالجة في الوقت الحقيقي: يمكن استخدام حلول الذكاء الاصطناعي المرئي لتحليل تدفقات الفيديو أثناء حدوثها، مما يتيح استجابات أسرع.
تتبع غير جراحي: على عكس الأجهزة القابلة للارتداء أو أجهزة الاستشعار، لا يتطلب من الأشخاص حمل أجهزة، مما يسمح بتحليل السلوك بشكل طبيعي وبدون عناء.
في حين أن هناك العديد من الفوائد لاستخدام الرؤية الحاسوبية في تقنية HAR، إلا أن هناك أيضاً قيوداً يجب مراعاتها. فيما يلي بعض العوامل التي يجب وضعها في الاعتبار:
المخاوف المتعلقة بالخصوصية: يمكن أن تثير المراقبة القائمة على الفيديو قضايا حول حماية البيانات والموافقة عليها، خاصة في البيئات الحساسة مثل المنازل أو أماكن العمل.
التحيز المحتمل: إذا كانت مجموعات بيانات التدريب تفتقر إلى التنوع، فقد تسيء الخوارزميات تفسير الإجراءات الخاصة بمجموعات معينة من الأشخاص، مما يؤدي إلى نتائج غير عادلة أو غير دقيقة.
الحساسية البيئية: يمكن أن تنخفض الدقة بسبب الإضاءة الضعيفة أو فوضى الخلفية أو إخفاء الأشخاص جزئيًا، مما يعني أن الأنظمة تحتاج إلى تصميمها بعناية.
الوجبات الرئيسية
يمكّن الذكاء الاصطناعي والرؤية الحاسوبية الآلات من التعرف على الأفعال البشرية بشكل أكثر دقة وفي الوقت الحقيقي. ومن خلال تحليل إطارات الفيديو وأنماط الحركة، يمكن لهذه الأنظمة التعرف على كل من الإيماءات اليومية والتغيرات المفاجئة. ومع استمرار تحسن هذه التكنولوجيا، يتخطى التعرف على النشاط البشري مختبرات الأبحاث ويصبح أداة عملية للرعاية الصحية والأمن والتطبيقات اليومية.