استكشف فهم الفيديو، الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرف على كيفية عمله وتطبيقات الطاقة في القيادة الذاتية والأمن الذكي.
فهم الفيديو هو مجال متقدم من الذكاء الاصطناعي (AI) و رؤية الكمبيوتر (CV) التي تمكن الآلات من تفسير وتحليل محتوى مقاطع الفيديو تلقائيًا. على عكس معالجة الصور الثابتة، يتضمن فهم الفيديو تحليل تسلسل الإطارات للتعرف ليس فقط على الكائنات، ولكن أيضًا على أفعالها وتفاعلاتها والسياق الزمني للأحداث. ويهدف إلى تحقيق فهم شامل لبيانات الفيديو، تمامًا مثل الطريقة التي يدرك بها البشر المشاهد الديناميكية ويفسرونها. هذه القدرة أساسية لمجموعة واسعة من التطبيقات، من المركبات ذاتية القيادة إلى المراقبة الآلية والإشراف على المحتوى.
تدمج أنظمة فهم الفيديو عادةً تقنيات الذكاء الاصطناعي المتعددة لمعالجة وتفسير المعلومات المرئية والزمنية. تبدأ العملية بمهام رؤية الكمبيوتر الأساسية التي يتم إجراؤها على إطارات الفيديو الفردية. غالبًا ما تتضمن هذه المهام ما يلي:
بمجرد استخراج هذه الميزات المكانية، يقوم النظام بتحليلها بمرور الوقت باستخدام نماذج مصممة للبيانات المتسلسلة، مثل الشبكات العصبية المتكررة (RNNs) أو، بشكل أكثر شيوعًا في البنى الحديثة، شبكات Transformer. تحدد هذه النماذج أنماطًا في كيفية تغير الكائنات والمشاهد، مما يتيح مهام ذات مستوى أعلى مثل التعرف على الإجراءات واكتشاف الأحداث وتلخيص الفيديو. تم تصميم بعض البنى المتقدمة، مثل الشبكات العصبية التلافيفية ثلاثية الأبعاد، لتعلم الميزات المكانية والزمانية في وقت واحد. تتم إدارة العملية بأكملها داخل إطار عمل متماسك لعمليات تعلم الآلة (MLOps) لضمان التدريب و النشر والمراقبة بكفاءة.
من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية الأخرى ذات الصلة.
يعزز فهم الفيديو عددًا متزايدًا من الحلول المبتكرة في مختلف الصناعات.
تشمل التطبيقات الأخرى الإشراف على المحتوى على منصات التواصل الاجتماعي عن طريق الإبلاغ عن مقاطع الفيديو غير المناسبة، و تحليلات رياضية عن طريق تلخيص أبرز أحداث المباراة، وإنشاء تجارب تفاعلية في مجال الترفيه. توفر منصات مثل Ultralytics HUB الأدوات اللازمة لتدريب نماذج مخصصة لهذه المهام المتخصصة، بينما تعمل عمليات التكامل مع أدوات مثل TensorRT على تحسينها من أجل الاستدلال في الوقت الفعلي.