استكشف التعرُّف على الحركة (التعرُّف على النشاط البشري): كيف يمكن للفيديو وتقدير الوضعية والتعلُّم العميق detect الأفعال البشرية في مجالات الرعاية الصحية والأمن والرياضة.
التعرف على الحركة، الذي يشار إليه غالبًا باسم التعرف على النشاط البشري (HAR)، هو فرع متخصص من الرؤية الحاسوبية (CV) يركز على تحديد وتصنيف حركات أو سلوكيات معينة ضمن بيانات الفيديو. في حين أن التعرف على الصور القياسي يحلل الإطارات الثابتة detect فإن التعرف على الحركة يدمج البعد الرابع - الوقت - لتفسير الأحداث الديناميكية. من خلال معالجة تسلسل الإطارات، يمكن لأنظمة الذكاء الاصطناعي (AI) المتقدمة التمييز بين السلوكيات المعقدة مثل المشي أو التلويح أو السقوط أو أداء تقنية رياضية معينة. هذه القدرة ضرورية لإنشاء أنظمة ذكية يمكنها فهم نوايا الإنسان والتفاعل بأمان في بيئات العالم الحقيقي.
لتحديد الإجراءات بدقة، يجب أن تستخرج نماذج التعلم العميق (DL) وتجمع نوعين أساسيين من السمات: المكانية والزمانية. تلتقط السمات المكانية المظهر البصري للمشهد ، مثل وجود شخص أو كائن، وعادةً ما تستخدم الشبكات العصبية التلافيفية (CNNs). تصف الميزات الزمنية كيفية تغير هذه العناصر بمرور الوقت، مما يوفر السياق اللازم للتمييز بين إجراء "الجلوس" وإجراء "الوقوف".
غالبًا ما تستخدم الأساليب الحديثة خط أنابيب متعدد المراحل لتحقيق دقة عالية:
أدت القدرة على أتمتة تفسير حركة الإنسان إلى اعتمادها على نطاق واسع في مختلف الصناعات. يستمر سوق التعرف على النشاط البشري العالمي في التوسع مع سعي الشركات إلى رقمنة سير العمل المادي وتعزيز السلامة.
في مجال الذكاء الاصطناعي في الرعاية الصحية، يعد التعرف على الحركات أمراً بالغ الأهمية لمراقبة المرضى تلقائياً. يمكن تدريب الأنظمة على detect في المستشفيات أو مرافق المعيشة المساعدة، مما يؤدي إلى إرسال تنبيهات فورية إلى طاقم التمريض. علاوة على ذلك، تسهل الرؤية الحاسوبية إعادة التأهيل البدني عن بُعد من خلال تحليل شكل تمارين المريض في الوقت الفعلي، مما يضمن قيامهم بالحركات بشكل صحيح للمساعدة في التعافي و منع الإصابة.
يستخدم المدربون والمذيعون الذكاء الاصطناعي في الرياضة لتحليل أداء الرياضيين. يمكن لخوارزميات التعرف على الحركات أن تحدد تلقائيًا الأحداث في لقطات المباريات — مثل رمية كرة السلة أو إرسال التنس أو تمريرة كرة القدم — مما يسمح بإجراء تحليل إحصائي مفصل. تساعد هذه البيانات في تحسين التقنية وتطوير الاستراتيجيات بناءً على أنماط حركة اللاعبين المحددة.
من المهم التفريق بين مصطلح "التعرف على الحركة" والمصطلحات المماثلة في مجال الرؤية الحاسوبية لاختيار الأداة المناسبة للمهمة.
تعد استخراج بيانات الهيكل العظمي خطوة أساسية في العديد من خطوط إنتاج التعرف على الحركات. يوضح Python التالي Python
كيفية استخدام ultralytics مكتبة مع
يولو26 لاستخراج نقاط مفتاحية للوضع، والتي تعمل كطبقة بيانات أساسية لتصنيف الإجراءات اللاحقة.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
ينطوي نشر هذه الأنظمة على تحديات، بما في ذلك الحاجة إلى كميات هائلة من بيانات التدريب الموسومة والتكلفة الحسابية لمعالجة الفيديو. تعد مجموعات البيانات المعيارية مثل Kinetics-400 معيارًا لتقييم أداء النموذج.
مع تحسن الأجهزة، هناك تحول نحو الذكاء الاصطناعي الحافة، مما يسمح بتشغيل النماذج مباشرة على الكاميرات أو الأجهزة المحمولة. وهذا يتيح الاستدلال في الوقت الفعلي مع زمن انتقال أقل و خصوصية أفضل، حيث لا يلزم إرسال بيانات الفيديو إلى السحابة. تهدف التطورات المستقبلية إلى زيادة تحسين سرعة ودقة محركات الكشف وتقدير الوضع الأساسية التي تدعم مهام التعرف المعقدة هذه.