Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

الاعتراف بالإجراءات

استكشف التعرُّف على الحركة (التعرُّف على النشاط البشري): كيف يمكن للفيديو وتقدير الوضعية والتعلُّم العميق detect الأفعال البشرية في مجالات الرعاية الصحية والأمن والرياضة.

التعرف على الحركة، الذي يشار إليه غالبًا باسم التعرف على النشاط البشري (HAR)، هو فرع متخصص من الرؤية الحاسوبية (CV) يركز على تحديد وتصنيف حركات أو سلوكيات معينة ضمن بيانات الفيديو. في حين أن التعرف على الصور القياسي يحلل الإطارات الثابتة detect فإن التعرف على الحركة يدمج البعد الرابع - الوقت - لتفسير الأحداث الديناميكية. من خلال معالجة تسلسل الإطارات، يمكن لأنظمة الذكاء الاصطناعي (AI) المتقدمة التمييز بين السلوكيات المعقدة مثل المشي أو التلويح أو السقوط أو أداء تقنية رياضية معينة. هذه القدرة ضرورية لإنشاء أنظمة ذكية يمكنها فهم نوايا الإنسان والتفاعل بأمان في بيئات العالم الحقيقي.

الآليات والتقنيات الأساسية

لتحديد الإجراءات بدقة، يجب أن تستخرج نماذج التعلم العميق (DL) وتجمع نوعين أساسيين من السمات: المكانية والزمانية. تلتقط السمات المكانية المظهر البصري للمشهد ، مثل وجود شخص أو كائن، وعادةً ما تستخدم الشبكات العصبية التلافيفية (CNNs). تصف الميزات الزمنية كيفية تغير هذه العناصر بمرور الوقت، مما يوفر السياق اللازم للتمييز بين إجراء "الجلوس" وإجراء "الوقوف".

غالبًا ما تستخدم الأساليب الحديثة خط أنابيب متعدد المراحل لتحقيق دقة عالية:

  • تقدير الوضع: تقوم هذه التقنية بتعيين هيكل العظام في جسم الإنسان، وتتبع نقاط رئيسية محددة مثل المرفقين والركبتين والكتفين. توفر العلاقة الهندسية بين هذه النقاط إشارة قوية لتصنيف الإجراءات، بغض النظر عن الضوضاء في الخلفية أو ظروف الإضاءة.
  • النمذجة الزمنية: تتم معالجة تسلسلات البيانات باستخدام بنى مصممة لتحليل السلاسل الزمنية ، مثل الشبكات العصبية المتكررة (RNNs) أو شبكات الذاكرة القصيرة الطويلة الأمد (LSTM). في الآونة الأخيرة، أصبحت محولات الفيديو المعيار القياسي لنمذجة التبعيات بعيدة المدى في تدفقات الفيديو.
  • ميزات الحركة: غالبًا ما تتضمن الخوارزميات التدفق البصري track وسرعة حركة البكسل بين الإطارات بشكل واضح، مما يساعد النموذج على تمييز أنماط الحركة الدقيقة التي قد تفوت التحليل المكاني وحده.

تطبيقات واقعية

أدت القدرة على أتمتة تفسير حركة الإنسان إلى اعتمادها على نطاق واسع في مختلف الصناعات. يستمر سوق التعرف على النشاط البشري العالمي في التوسع مع سعي الشركات إلى رقمنة سير العمل المادي وتعزيز السلامة.

الرعاية الصحية وسلامة المرضى

في مجال الذكاء الاصطناعي في الرعاية الصحية، يعد التعرف على الحركات أمراً بالغ الأهمية لمراقبة المرضى تلقائياً. يمكن تدريب الأنظمة على detect في المستشفيات أو مرافق المعيشة المساعدة، مما يؤدي إلى إرسال تنبيهات فورية إلى طاقم التمريض. علاوة على ذلك، تسهل الرؤية الحاسوبية إعادة التأهيل البدني عن بُعد من خلال تحليل شكل تمارين المريض في الوقت الفعلي، مما يضمن قيامهم بالحركات بشكل صحيح للمساعدة في التعافي و منع الإصابة.

التحليلات الرياضية

يستخدم المدربون والمذيعون الذكاء الاصطناعي في الرياضة لتحليل أداء الرياضيين. يمكن لخوارزميات التعرف على الحركات أن تحدد تلقائيًا الأحداث في لقطات المباريات — مثل رمية كرة السلة أو إرسال التنس أو تمريرة كرة القدم — مما يسمح بإجراء تحليل إحصائي مفصل. تساعد هذه البيانات في تحسين التقنية وتطوير الاستراتيجيات بناءً على أنماط حركة اللاعبين المحددة.

التمييز بين المفاهيم ذات الصلة

من المهم التفريق بين مصطلح "التعرف على الحركة" والمصطلحات المماثلة في مجال الرؤية الحاسوبية لاختيار الأداة المناسبة للمهمة.

  • التعرّف على الحركة مقابل فهم الفيديو: بينما يركز التعرف على الحركة على تحديد أنشطة مادية محددة (مثل "فتح الباب"), أما فهم الفيديو فهو مجال أوسع يهدف إلى فهم السياق الكامل والسرد والعلاقات السببية العلاقات داخل الفيديو (على سبيل المثال، "الشخص يفتح الباب ليخرج الكلب").
  • التعرف على الحركة مقابل تتبع الكائنات: يتعلق تتبع الكائنات بالحفاظ على هوية كائن أو شخص عبر الإطارات (تعيين معرف فريد). يتضمن التعرف على الحركة تحليل سلوك الكائن المتتبع. غالبًا ما يكون التتبع خطوة أساسية للتعرف على الحركات في المشاهد التي تضم عدة أشخاص.

تنفيذ تحليل الإجراءات

تعد استخراج بيانات الهيكل العظمي خطوة أساسية في العديد من خطوط إنتاج التعرف على الحركات. يوضح Python التالي Python كيفية استخدام ultralytics مكتبة مع يولو26 لاستخراج نقاط مفتاحية للوضع، والتي تعمل كطبقة بيانات أساسية لتصنيف الإجراءات اللاحقة.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

التحديات والاتجاهات المستقبلية

ينطوي نشر هذه الأنظمة على تحديات، بما في ذلك الحاجة إلى كميات هائلة من بيانات التدريب الموسومة والتكلفة الحسابية لمعالجة الفيديو. تعد مجموعات البيانات المعيارية مثل Kinetics-400 معيارًا لتقييم أداء النموذج.

مع تحسن الأجهزة، هناك تحول نحو الذكاء الاصطناعي الحافة، مما يسمح بتشغيل النماذج مباشرة على الكاميرات أو الأجهزة المحمولة. وهذا يتيح الاستدلال في الوقت الفعلي مع زمن انتقال أقل و خصوصية أفضل، حيث لا يلزم إرسال بيانات الفيديو إلى السحابة. تهدف التطورات المستقبلية إلى زيادة تحسين سرعة ودقة محركات الكشف وتقدير الوضع الأساسية التي تدعم مهام التعرف المعقدة هذه.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن