استكشف التعرُّف على الحركة (التعرُّف على النشاط البشري): كيف يمكن للفيديو وتقدير الوضعية والتعلُّم العميق detect الأفعال البشرية في مجالات الرعاية الصحية والأمن والرياضة.
التعرف على الحركة، الذي يشار إليه غالبًا باسم التعرف على النشاط البشري (HAR)، هو مجموعة فرعية متخصصة من الرؤية الحاسوبية (CV) التي تركز على تحديد و وتصنيف حركات أو سلوكيات معينة في بيانات الفيديو. على عكس معيار القياسية التي تحلل الإطارات الثابتة detect الأشياء، فإن التعرّف على الحركة يتضمن بُعد الزمن لفهم الأحداث الديناميكية. من خلال معالجة تسلسل الصور يمكن لأنظمة الذكاء الاصطناعي التمييز بين الأفعال مثل المشي أو الجري أو التلويح أو السقوط. هذه القدرة ضرورية لإنشاء الأنظمة التي يمكنها تفسير السلوك البشري في بيئات العالم الحقيقي، وسد الفجوة بين رؤية وحدات البكسل و وفهم النية.
لتحديد الإجراءات بدقة, يجب على نماذج التعلم العميق (DL) استخراج نوعين من من الميزات: المكانية والزمانية. تصف الميزات المكانية المظهر المرئي للمشهد، مثل وجود شخص أو جسم، وعادةً ما تُستخرج عن طريق الشبكات العصبية التلافيفية (CNNs). تصف السمات الزمانية كيفية تغير هذه العناصر المكانية بمرور الوقت.
غالبًا ما تستخدم الأساليب الحديثة خط أنابيب يتضمن:
يوضّح مثال Python التالي كيفية استخدام الأداة ultralytics لاستخراج نقاط الوضعية الرئيسية
من الفيديو، والتي تعمل كطبقة بيانات أساسية للعديد من أنظمة التعرف على الحركة.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
أدت القدرة على أتمتة تفسير حركة الإنسان إلى اعتمادها بشكل كبير في مختلف القطاعات. السوق العالمية العالمي للتعرف على النشاط البشري يستمر في التوسع مع سعي الصناعات إلى رقمنة سير العمل المادي.
في مجال الذكاء الاصطناعي في مجال الرعاية الصحية، يعد أمر بالغ الأهمية للمراقبة الآلية للمرضى. يمكن تدريب الأنظمة على detect حالات السقوط في المستشفيات أو أو مرافق المعيشة المساعدة، مما يؤدي إلى إطلاق تنبيهات فورية للموظفين. علاوة على ذلك، تسهل الرؤية الحاسوبية إعادة التأهيل البدني عن بُعد من خلال تحليل شكل تمارين المريض في الوقت الحقيقي، مما يضمن أداءه للحركات بشكل صحيح للمساعدة في التعافي ومنع الإصابة.
يستخدم المدربون والمذيعون الذكاء الاصطناعي في الرياضة تحليل أداء الرياضيين. يمكن لخوارزميات التعرّف على الحركة وضع علامات تلقائيًا على الأحداث في لقطات اللعبة - مثل تسديدة كرة السلة، أو إرسال كرة المضرب، أو تمريرة كرة القدم - مما يسمح بإجراء تحليل إحصائي مفصّل. تساعد هذه البيانات في في تحسين التقنية وتطوير الاستراتيجيات بناءً على أنماط حركة اللاعب.
لقد تطورت أنظمة الأمان إلى ما هو أبعد من مجرد اكتشاف الحركة البسيطة. المراقبة الأمنية المتقدمة المراقبة الأمنية المتقدمة تستخدم خاصية التعرف على الحركة لتحديد السلوكيات المشبوهة، مثل الشجار أو التسكع أو سرقة المتاجر، بينما تجاهل الحركات الحميدة. هذا يقلل من الإنذارات الكاذبة ويحسن كفاءة موظفي الأمن.
من المهم التفريق بين مصطلح "التعرف على الحركة" والمصطلحات المماثلة في مجال الرؤية الحاسوبية لاختيار الأداة المناسبة للمهمة.
ينطوي نشر هذه الأنظمة على تحديات، بما في ذلك الحاجة إلى كميات هائلة من بيانات التدريب والتكلفة الحسابية معالجة الفيديو. مجموعات البيانات المعيارية مثل Kinetics-400 و UCF101 قياسية لتدريب النماذج وتقييمها.
مع تحسن الأجهزة، هناك تحوّل نحو الذكاء الاصطناعي المتطور, مما يسمح بتشغيل النماذج مباشرةً على الكاميرات أو الأجهزة المحمولة. وهذا يتيح الاستدلال في الوقت الحقيقي مع زمن استجابة أقل و خصوصية أفضل، حيث لا يلزم إرسال بيانات الفيديو إلى السحابة. تهدف التطورات المستقبلية، بما في ذلك YOLO26 القادم، تهدف إلى زيادة تحسين سرعة ودقة محركات الكشف الأساسية وتقدير الوضعية التي تدعم مهام التعرف المعقدة هذه.