Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الاعتراف بالإجراءات

اكتشف كيف يتعرف التعرف على الإجراءات على السلوكيات في الفيديو. تعلم كيفية استخدام Ultralytics لتقدير الوضعيات وبناء أنظمة ذكاء اصطناعي ذكية لمهام HAR.

التعرف على الحركة، المعروف أيضًا باسم التعرف على النشاط البشري (HAR)، هو مجال فرعي ديناميكي من مجالات الرؤية الحاسوبية (CV) يهتم بتحديد وتصنيف سلوكيات أو حركات معينة يقوم بها الأشخاص في بيانات الفيديو. في حين أن الكشف التقليدي عن الأشياء يجيب على السؤال "ماذا يوجد في الصورة؟"، فإن التعرف على الحركة يتناول السؤال الأكثر تعقيدًا "ماذا يحدث مع مرور الوقت؟". من خلال تحليل تسلسل الإطارات بدلاً من الصور الثابتة، يمكن لنماذج التعلم الآلي (ML) التمييز بين الأنشطة المعقدة مثل "المشي" و"ركوب الدراجة" و"السقوط" أو "المصافحة "، مما يجعلها مكونًا أساسيًا لبناء أنظمة ذكية تفهم نوايا الإنسان وسياقه.

المفاهيم والتقنيات الأساسية

يتطلب التعرف على الأفعال نموذجًا لمعالجة كل من المعلومات المكانية (شكل الأشياء أو الأشخاص) والمعلومات الزمنية (كيفية تحركهم عبر الزمن). ولتحقيق ذلك، غالبًا ما تستخدم أنظمة الذكاء الاصطناعي الحديثة هياكل متخصصة تتجاوز الشبكات العصبية التلافيفية القياسية.

  • تقدير الوضع: تقنية قوية يتتبع فيها النموذج نقاطًا رئيسية محددة على جسم الإنسان، مثل المرفقين والركبتين والكتفين. توفر التغييرات الهندسية في هذه النقاط الرئيسية بمرور الوقت إشارة قوية لتصنيف الإجراءات، بغض النظر عن فوضى الخلفية.
  • النمذجة الزمنية: تستخدم الخوارزميات هياكل مثل الشبكات العصبية المتكررة (RNNs) أو شبكات الذاكرة القصيرة طويلة المدى (LSTM) لتذكر الإطارات السابقة والتنبؤ بالإجراءات المستقبلية. في الآونة الأخيرة، اكتسبت محولات الفيديو شعبية بسبب قدرتها على التعامل مع التبعيات بعيدة المدى في تدفقات الفيديو.
  • شبكات ثنائية التدفق: يعالج هذا النهج السمات المكانية (إطارات RGB) والسمات الزمنية (غالبًا باستخدام التدفق البصري) في تدفقات متوازية، ويدمج البيانات لإجراء تصنيف نهائي.

تطبيقات واقعية

تتمتع القدرة على تفسير حركات الإنسان تلقائيًا بإمكانيات تحويلية في مختلف الصناعات، حيث تعزز السلامة والكفاءة وتجربة المستخدم.

  • الذكاء الاصطناعي في الرعاية الصحية: يعد التعرف على الحركة أمرًا حيويًا لأنظمة مراقبة المرضى. على سبيل المثال، يتيح هذا التعرف الكشف التلقائي عن السقوط في دور رعاية المسنين، وينبه الموظفين على الفور في حالة سقوط أحد المرضى. كما يستخدم أيضًا في إعادة التأهيل البدني عن بُعد، حيث يحلل مدربو الذكاء الاصطناعي شكل تمارين المريض للتأكد من قيامه بالحركات بشكل صحيح وآمن.
  • المراقبة والأمن الذكيان: بالإضافة إلى الكشف البسيط عن الحركة، تستخدم أنظمة الأمن المتقدمة التعرف على الأفعال لتحديد السلوكيات المشبوهة، مثل الشجار أو السرقة من المتاجر أو الدخول غير المصرح به، مع تجاهل الأنشطة الحميدة. وهذا يقلل من الإنذارات الكاذبة ويحسن المراقبة الأمنية في الوقت الفعلي.

تنفيذ تحليل الإجراءات باستخدام Ultralytics

يتضمن سير العمل الشائع أولاً اكتشاف الأشخاص ووضعيات هياكلهم العظمية، ثم تحليل حركة تلك المفاصل. يوفر نموذج Ultralytics سرعة ودقة متطورة لخطوة تقدير الوضع الأولي، والتي تعد الأساس للعديد من خطوط إنتاج التعرف على الحركة .

يوضح المثال التالي كيفية استخراج النقاط الرئيسية الهيكلية من إطار فيديو باستخدام Python:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

التمييز بين المصطلحات ذات الصلة

من المهم التمييز بين التعرف على الإجراءات ومهام الرؤية الحاسوبية المماثلة لضمان تطبيق الأساليب الصحيحة .

  • التعرف على الحركة مقابل تتبع الكائنات: يركز تتبع الكائنات على الحفاظ على هوية كائن أو شخص معين أثناء تحركه عبر الإطارات (على سبيل المثال، "الشخص أ موجود عند الإحداثي X"). أما التعرف على الحركة فيفسر سلوك الكائن المتتبع (على سبيل المثال، "الشخص أ يركض").
  • التعرف على الحركة مقابل فهم الفيديو: بينما يحدد التعرف على الحركة أفعالًا جسدية محددة، فإن فهم الفيديو هو مفهوم أوسع نطاقًا يتضمن فهم السرد الكامل والسياق والعلاقات السببية داخل مشهد الفيديو.

التحديات والاتجاهات المستقبلية

يُشكل تطوير نماذج قوية للتعرف على الحركات تحديات، لا سيما فيما يتعلق بالحاجة إلى مجموعات بيانات فيديو كبيرة ومُعلّقة مثل Kinetics-400 أو UCF101. ويستغرق تصنيف بيانات الفيديو وقتًا أطول بكثير من تصنيف الصور الثابتة. ولمعالجة هذه المشكلة، تساعد أدوات مثل Ultralytics في تبسيط عملية التعليق والتدريب .

علاوة على ذلك، تعد الكفاءة الحسابية أمرًا بالغ الأهمية. تتطلب معالجة الفيديو عالي الدقة في الوقت الفعلي موارد كبيرة من الأجهزة. تتجه الصناعة بشكل متزايد نحو الذكاء الاصطناعي المتطور، مما يؤدي إلى تحسين النماذج لتعمل مباشرة على الكاميرات و الأجهزة المحمولة لتقليل زمن الاستجابة واستخدام النطاق الترددي. تهدف التطورات المستقبلية إلى تحسين تعميم النماذج، مما يسمح للأنظمة بالتعرف على الإجراءات حتى من وجهات نظر لم يتم تدريبها عليها بشكل صريح.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن