Action Recognition
استكشف كيف يحدد التعرف على الإجراءات السلوكيات في الفيديو. تعلم استخدام Ultralytics YOLO26 لتقدير الوضع وبناء أنظمة ذكاء اصطناعي ذكية لمهام HAR.
التعرف على الإجراءات، والمعروف أيضاً باسم التعرف على نشاط الإنسان (HAR)، هو مجال فرعي ديناميكي من الرؤية الحاسوبية (CV) يهتم بتحديد وتصنيف سلوكيات أو حركات معينة يؤديها الأشخاص في بيانات الفيديو. بينما تجيب اكتشاف الأشياء التقليدية على سؤال "ماذا يوجد في الصورة؟"، يعالج التعرف على الإجراءات السؤال الأكثر تعقيداً "ما الذي يحدث بمرور الوقت؟". من خلال تحليل تسلسلات الإطارات بدلاً من الصور الثابتة، يمكن لنماذج تعلم الآلة (ML) التمييز بين الأنشطة المعقدة مثل "المشي" أو "ركوب الدراجة" أو "السقوط" أو "المصافحة"، مما يجعلها مكوناً أساسياً لبناء أنظمة ذكية تفهم نوايا الإنسان والسياق.
Link to this sectionالمفاهيم والتقنيات الأساسية#
يتطلب التعرف على الإجراءات من النموذج معالجة المعلومات المكانية (كيف تبدو الأشياء أو الأشخاص) والمعلومات الزمنية (كيف يتحركون بمرور الوقت). ولتحقيق ذلك، غالباً ما تستخدم أنظمة الذكاء الاصطناعي (AI) الحديثة بنيات متخصصة تتجاوز الشبكات العصبية التلافيفية (CNNs) القياسية.
- تقدير الوضعية: تقنية قوية حيث يتتبع النموذج نقاطاً رئيسية محددة على جسم الإنسان، مثل المرفقين والركبتين والكتفين. توفر التغيرات الهندسية في هذه النقاط الرئيسية بمرور الوقت إشارة قوية لتصنيف الإجراءات، بغض النظر عن فوضى الخلفية.
- النمذجة الزمنية: تستخدم الخوارزميات هياكل مثل الشبكات العصبية المتكررة (RNNs) أو شبكات الذاكرة طويلة المدى (LSTM) لتذكر الإطارات السابقة والتنبؤ بالإجراءات المستقبلية. وفي الآونة الأخيرة، اكتسبت محولات الفيديو شعبية لقدرتها على التعامل مع التبعيات طويلة المدى في دفقات الفيديو.
- شبكات المسارين: يعالج هذا النهج الميزات المكانية (إطارات RGB) والميزات الزمنية (غالباً باستخدام التدفق البصري) في مسارات متوازية، مع دمج البيانات لإجراء تصنيف نهائي.
Link to this sectionتطبيقات العالم الحقيقي#
تمتلك القدرة على تفسير حركة الإنسان تلقائياً إمكانات تحويلية عبر مختلف الصناعات، مما يعزز السلامة والكفاءة وتجربة المستخدم.
- الذكاء الاصطناعي في الرعاية الصحية: يعد التعرف على الإجراءات أمراً حيوياً لأنظمة مراقبة المرضى. على سبيل المثال، يتيح الاكتشاف الآلي للسقوط في دور رعاية المسنين، وتنبيه الموظفين على الفور إذا سقط مريض. كما يُستخدم في إعادة التأهيل البدني عن بُعد، حيث يقوم مدربو الذكاء الاصطناعي بتحليل نموذج تمرين المريض لضمان أدائهم للحركات بشكل صحيح وآمن.
- المراقبة الذكية والأمن: بعيداً عن كشف الحركة البسيط، تستخدم أنظمة الأمن المتقدمة التعرف على الإجراءات لتحديد السلوكيات المشبوهة، مثل القتال أو السرقة من المتاجر أو الدخول غير المصرح به، مع تجاهل الأنشطة العادية. هذا يقلل من الإنذارات الكاذبة ويحسن المراقبة الأمنية في الوقت الفعلي.
Link to this sectionتنفيذ تحليل الإجراءات باستخدام Ultralytics#
يتضمن سير العمل الشائع اكتشاف الأشخاص ووضعية هيكلهم العظمي أولاً، ثم تحليل حركة تلك المفاصل. يوفر نموذج Ultralytics YOLO26 سرعة ودقة متطورتين لخطوة تقدير الوضعية الأولية، والتي تعد أساساً للعديد من مسارات عمل التعرف على الإجراءات.
يوضح المثال التالي كيفية استخراج النقاط الرئيسية للهيكل العظمي من إطار فيديو باستخدام Python:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")Link to this sectionالتمييز بين المصطلحات ذات الصلة#
من المهم التمييز بين التعرف على الإجراءات ومهام الرؤية الحاسوبية المماثلة لضمان تطبيق الأساليب الصحيحة.
- التعرف على الإجراءات مقابل تتبع الأشياء: يركز تتبع الأشياء على الحفاظ على هوية كائن أو شخص معين أثناء تحركه عبر الإطارات (على سبيل المثال، "الشخص A عند الإحداثي X"). يفسر التعرف على الإجراءات سلوك هذا الشخص المتعقب (على سبيل المثال، "الشخص A يجري").
- التعرف على الإجراءات مقابل فهم الفيديو: بينما يحدد التعرف على الإجراءات أفعالاً جسدية محددة، فإن فهم الفيديو هو مفهوم أوسع يتضمن استيعاب السرد الكامل والسياق والعلاقات السببية داخل مشهد الفيديو.
Link to this sectionالتحديات والاتجاهات المستقبلية#
يطرح تطوير نماذج قوية للتعرف على الإجراءات تحديات، خاصة فيما يتعلق بالحاجة إلى مجموعات بيانات فيديو كبيرة ومُصنفة مثل Kinetics-400 أو UCF101. إن تصنيف بيانات الفيديو يستهلك وقتاً أطول بكثير من تصنيف الصور الثابتة. ولمعالجة ذلك، تساعد أدوات مثل منصة Ultralytics في تبسيط سير عمل التصنيف والتدريب.
علاوة على ذلك، تعتبر الكفاءة الحسابية أمراً بالغ الأهمية. تتطلب معالجة الفيديو عالي الدقة في الوقت الفعلي موارد أجهزة كبيرة. تتجه الصناعة بشكل متزايد نحو الذكاء الاصطناعي الحافي (Edge AI)، من خلال تحسين النماذج لتعمل مباشرة على الكاميرات والأجهزة المحمولة لتقليل زمن الوصول واستخدام النطاق الترددي. تهدف التطورات المستقبلية إلى تحسين تعميم النموذج، مما يسمح للأنظمة بالتعرف على الإجراءات حتى من وجهات نظر لم يتم تدريبها عليها بشكل صريح.






