اكتشف كيف يتعرف التعرف على الإجراءات على السلوكيات في الفيديو. تعلم كيفية استخدام Ultralytics لتقدير الوضعيات وبناء أنظمة ذكاء اصطناعي ذكية لمهام HAR.
التعرف على الحركة، المعروف أيضًا باسم التعرف على النشاط البشري (HAR)، هو مجال فرعي ديناميكي من مجالات الرؤية الحاسوبية (CV) يهتم بتحديد وتصنيف سلوكيات أو حركات معينة يقوم بها الأشخاص في بيانات الفيديو. في حين أن الكشف التقليدي عن الأشياء يجيب على السؤال "ماذا يوجد في الصورة؟"، فإن التعرف على الحركة يتناول السؤال الأكثر تعقيدًا "ماذا يحدث مع مرور الوقت؟". من خلال تحليل تسلسل الإطارات بدلاً من الصور الثابتة، يمكن لنماذج التعلم الآلي (ML) التمييز بين الأنشطة المعقدة مثل "المشي" و"ركوب الدراجة" و"السقوط" أو "المصافحة "، مما يجعلها مكونًا أساسيًا لبناء أنظمة ذكية تفهم نوايا الإنسان وسياقه.
يتطلب التعرف على الأفعال نموذجًا لمعالجة كل من المعلومات المكانية (شكل الأشياء أو الأشخاص) والمعلومات الزمنية (كيفية تحركهم عبر الزمن). ولتحقيق ذلك، غالبًا ما تستخدم أنظمة الذكاء الاصطناعي الحديثة هياكل متخصصة تتجاوز الشبكات العصبية التلافيفية القياسية.
تتمتع القدرة على تفسير حركات الإنسان تلقائيًا بإمكانيات تحويلية في مختلف الصناعات، حيث تعزز السلامة والكفاءة وتجربة المستخدم.
يتضمن سير العمل الشائع أولاً اكتشاف الأشخاص ووضعيات هياكلهم العظمية، ثم تحليل حركة تلك المفاصل. يوفر نموذج Ultralytics سرعة ودقة متطورة لخطوة تقدير الوضع الأولي، والتي تعد الأساس للعديد من خطوط إنتاج التعرف على الحركة .
يوضح المثال التالي كيفية استخراج النقاط الرئيسية الهيكلية من إطار فيديو باستخدام Python:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
من المهم التمييز بين التعرف على الإجراءات ومهام الرؤية الحاسوبية المماثلة لضمان تطبيق الأساليب الصحيحة .
يُشكل تطوير نماذج قوية للتعرف على الحركات تحديات، لا سيما فيما يتعلق بالحاجة إلى مجموعات بيانات فيديو كبيرة ومُعلّقة مثل Kinetics-400 أو UCF101. ويستغرق تصنيف بيانات الفيديو وقتًا أطول بكثير من تصنيف الصور الثابتة. ولمعالجة هذه المشكلة، تساعد أدوات مثل Ultralytics في تبسيط عملية التعليق والتدريب .
علاوة على ذلك، تعد الكفاءة الحسابية أمرًا بالغ الأهمية. تتطلب معالجة الفيديو عالي الدقة في الوقت الفعلي موارد كبيرة من الأجهزة. تتجه الصناعة بشكل متزايد نحو الذكاء الاصطناعي المتطور، مما يؤدي إلى تحسين النماذج لتعمل مباشرة على الكاميرات و الأجهزة المحمولة لتقليل زمن الاستجابة واستخدام النطاق الترددي. تهدف التطورات المستقبلية إلى تحسين تعميم النماذج، مما يسمح للأنظمة بالتعرف على الإجراءات حتى من وجهات نظر لم يتم تدريبها عليها بشكل صريح.