استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

فهم الفيديو

استكشف فهم الفيديو، الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرف على كيفية عمله وتطبيقات الطاقة في القيادة الذاتية والأمن الذكي.

فهم الفيديو هو مجال متقدم من الذكاء الاصطناعي (AI) و رؤية الكمبيوتر (CV) التي تمكن الآلات من تفسير وتحليل محتوى مقاطع الفيديو تلقائيًا. على عكس معالجة الصور الثابتة، يتضمن فهم الفيديو تحليل تسلسل الإطارات للتعرف ليس فقط على الكائنات، ولكن أيضًا على أفعالها وتفاعلاتها والسياق الزمني للأحداث. ويهدف إلى تحقيق فهم شامل لبيانات الفيديو، تمامًا مثل الطريقة التي يدرك بها البشر المشاهد الديناميكية ويفسرونها. هذه القدرة أساسية لمجموعة واسعة من التطبيقات، من المركبات ذاتية القيادة إلى المراقبة الآلية والإشراف على المحتوى.

كيف يعمل فهم الفيديو

تدمج أنظمة فهم الفيديو عادةً تقنيات الذكاء الاصطناعي المتعددة لمعالجة وتفسير المعلومات المرئية والزمنية. تبدأ العملية بمهام رؤية الكمبيوتر الأساسية التي يتم إجراؤها على إطارات الفيديو الفردية. غالبًا ما تتضمن هذه المهام ما يلي:

بمجرد استخراج هذه الميزات المكانية، يقوم النظام بتحليلها بمرور الوقت باستخدام نماذج مصممة للبيانات المتسلسلة، مثل الشبكات العصبية المتكررة (RNNs) أو، بشكل أكثر شيوعًا في البنى الحديثة، شبكات Transformer. تحدد هذه النماذج أنماطًا في كيفية تغير الكائنات والمشاهد، مما يتيح مهام ذات مستوى أعلى مثل التعرف على الإجراءات واكتشاف الأحداث وتلخيص الفيديو. تم تصميم بعض البنى المتقدمة، مثل الشبكات العصبية التلافيفية ثلاثية الأبعاد، لتعلم الميزات المكانية والزمانية في وقت واحد. تتم إدارة العملية بأكملها داخل إطار عمل متماسك لعمليات تعلم الآلة (MLOps) لضمان التدريب و النشر والمراقبة بكفاءة.

فهم الفيديو مقابل المفاهيم ذات الصلة

من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية الأخرى ذات الصلة.

  • فهم الفيديو مقابل اكتشاف/تتبع الكائنات: يحدد اكتشاف الكائنات ما هو موجود في إطار واحد، و تتبع الكائنات يتبع تلك الكائنات عبر إطارات متعددة. يستخدم فهم الفيديو مخرجات هذه المهام لتفسير السبب—الإجراءات والأحداث والتفاعلات التي تحدث بمرور الوقت. على سبيل المثال، تتبع شخص ما هو تتبع الكائنات؛ تحديد أن الشخص يفتح بابًا هو فهم الفيديو.
  • فهم الفيديو مقابل التعرف على الصور: يركز التعرف على الصور على تصنيف الكائنات أو المشاهد داخل صورة ثابتة واحدة. يوسع فهم الفيديو هذا المفهوم إلى البعد الزمني، ويحلل سلسلة من الصور لفهم الأحداث الديناميكية. يتطلب فهم ليس فقط "ماذا" ولكن أيضًا "كيف" و "متى".
  • فهم الفيديو مقابل تحويل النص إلى فيديو: تحويل النص إلى فيديو هي مهمة ذكاء اصطناعي توليدي تنشئ محتوى فيديو من أوصاف نصية. على العكس من ذلك، فإن فهم الفيديو هو مهمة تحليلية تستخرج المعنى وتولد أوصافًا أو بيانات منظمة من محتوى الفيديو الحالي.

تطبيقات واقعية

يعزز فهم الفيديو عددًا متزايدًا من الحلول المبتكرة في مختلف الصناعات.

  1. المراقبة والأمن الذكيان: في تطبيقات الأمان، يمكن لأنظمة فهم الفيديو اكتشاف الأنشطة غير العادية تلقائيًا. على سبيل المثال، يمكن للنظام مراقبة خلاصات المراقبة في المستشفى لتحديد متى يسقط المريض أو تحليل حركة المرور في متجر بيع بالتجزئة للكشف عن السرقة. تتجاوز هذه الأنظمة مجرد اكتشاف الحركة البسيط من خلال فهم سياق الإجراءات، مما يقلل بشكل كبير من الإنذارات الكاذبة ويتيح استجابات أسرع. يمكنك معرفة المزيد عن طريق القراءة عن تحسين المراقبة الذكية باستخدام Ultralytics YOLO11.
  2. القيادة الذاتية: بالنسبة إلى السيارات ذاتية القيادة، يعد فهم الطريق أمرًا بالغ الأهمية. تحلل نماذج فهم الفيديو الخلاصات من الكاميرات للتنبؤ بنوايا المشاة، وتفسير سلوك المركبات الأخرى، والتعرف على إشارات المرور في السيناريوهات المعقدة. هذا المستوى العميق من الفهم ضروري للملاحة الآمنة والموثوقة. غالبًا ما يعتمد هذا المجال على بحث مكثف في التعرف على الإجراءات للأنظمة المستقلة.

تشمل التطبيقات الأخرى الإشراف على المحتوى على منصات التواصل الاجتماعي عن طريق الإبلاغ عن مقاطع الفيديو غير المناسبة، و تحليلات رياضية عن طريق تلخيص أبرز أحداث المباراة، وإنشاء تجارب تفاعلية في مجال الترفيه. توفر منصات مثل Ultralytics HUB الأدوات اللازمة لتدريب نماذج مخصصة لهذه المهام المتخصصة، بينما تعمل عمليات التكامل مع أدوات مثل TensorRT على تحسينها من أجل الاستدلال في الوقت الفعلي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة