مسرد المصطلحات

فهم الفيديو

استكشف فهم الفيديو، وهو الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرّف على كيفية عمله وتشغيله للتطبيقات في القيادة الذاتية والأمان الذكي.

فهم الفيديو هو مجال متقدم من مجالات الذكاء الاصطناعي والرؤية الحاسوبية التي تمكّن الآلات من تفسير وتحليل محتوى مقاطع الفيديو تلقائيًا. على عكس معالجة الصور الثابتة، يتضمن فهم الفيديو تحليل تسلسل الإطارات للتعرف ليس فقط على الأشياء، ولكن أيضًا على أفعالها وتفاعلاتها والسياق الزمني للأحداث. ويهدف إلى تحقيق فهم شامل لبيانات الفيديو، يشبه إلى حد كبير كيفية إدراك البشر للمشاهد الديناميكية وتفسيرها. هذه القدرة أساسية لمجموعة واسعة من التطبيقات، من المركبات ذاتية القيادة إلى المراقبة الآلية وإدارة المحتوى.

كيف يعمل فهم الفيديو

تدمج أنظمة فهم الفيديو عادةً تقنيات الذكاء الاصطناعي المتعددة لمعالجة المعلومات البصرية والزمنية وتفسيرها. تبدأ العملية بمهام الرؤية الحاسوبية الأساسية التي يتم تنفيذها على إطارات الفيديو الفردية. تتضمن هذه المهام غالبًا ما يلي:

  • اكتشاف الأجسام: تحديد الكائنات وتحديد موقعها داخل كل إطار. تعتبر نماذج مثل Ultralytics YOLO فعالة للغاية في هذه الخطوة الأولية.
  • تتبُّع الأجسام: تتبع الأجسام المحددة عبر سلسلة من الإطارات لفهم حركتها وثباتها.
  • تقدير الوضعية: التعرف على الوضعية والنقاط الرئيسية للأجسام البشرية، وهو أمر بالغ الأهمية لتحليل تصرفات الإنسان.
  • تجزئة الصور: تصنيف كل بكسل في إطار لفهم الشكل والحدود الدقيقة للأجسام.

بمجرد استخلاص هذه السمات المكانية، يقوم النظام بتحليلها بمرور الوقت باستخدام نماذج مصممة للبيانات المتسلسلة، مثل الشبكات العصبية المتكررة (RNNs) أو، الأكثر شيوعًا في البنى الحديثة، شبكات المحولات. وتحدد هذه النماذج الأنماط في كيفية تغير الكائنات والمشاهد، مما يتيح مهام ذات مستوى أعلى مثل التعرف على الحركة واكتشاف الأحداث وتلخيص الفيديو. صُممت بعض البنى المتقدمة، مثل الشبكات العصبية التلافيفية ثلاثية الأبعاد، لتعلم السمات المكانية والزمانية في وقت واحد. تتم إدارة العملية بأكملها ضمن إطار عمل متماسك لعمليات التعلم الآلي (MLOps) لضمان كفاءة التدريب والنشر والمراقبة.

فهم الفيديو مقابل المفاهيم ذات الصلة

من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية الأخرى ذات الصلة.

  • فهم الفيديو مقابل اكتشاف/تعقب الكائنات: يحدد اكتشاف الكائنات ما هو موجود في إطار واحد، ويتتبع تتبع الكائنات عبر إطارات متعددة. يستخدم فهم الفيديو مخرجات هاتين المهمتين لتفسير السبب -الإجراءات والأحداث والتفاعلات التي تحدث مع مرور الوقت. على سبيل المثال، تتبع الشخص هو تتبع الكائن؛ وتحديد أن الشخص يفتح الباب هو فهم الفيديو.
  • فهم الفيديو مقابل التعرف على الصور: يركز التعرف على الصور على تصنيف الأشياء أو المشاهد داخل صورة واحدة ثابتة. يوسع مفهوم فهم الفيديو هذا المفهوم ليشمل البعد الزمني، ويحلل سلسلة من الصور لفهم الأحداث الديناميكية. ولا يتطلب فهم "ماذا" فحسب، بل يتطلب أيضًا فهم "كيف" و"متى".
  • فهم الفيديو مقابل تحويل النص إلى فيديو: تحويل النص إلى فيديو هي مهمة توليدية للذكاء الاصطناعي تقوم بإنشاء محتوى فيديو من أوصاف نصية. وعلى العكس من ذلك، فإن فهم الفيديو هو مهمة تحليلية تستخرج المعنى وتولد أوصافًا أو بيانات منظمة من محتوى الفيديو الموجود.

التطبيقات الواقعية

يعمل فهم الفيديو على تشغيل عدد متزايد من الحلول المبتكرة في مختلف الصناعات.

  1. المراقبة الذكية والأمن: في التطبيقات الأمنية، يمكن لأنظمة فهم الفيديو اكتشاف الأنشطة غير العادية تلقائيًا. على سبيل المثال، يمكن للنظام أن يراقب موجزات المراقبة في المستشفى لتحديد وقت سقوط المريض أو تحليل حركة المرور في متجر بيع بالتجزئة للكشف عن السرقة. تتجاوز هذه الأنظمة مجرد الكشف البسيط عن الحركة من خلال فهم سياق الإجراءات، مما يقلل بشكل كبير من الإنذارات الكاذبة ويتيح استجابات أسرع. يمكنك معرفة المزيد من خلال قراءة المزيد حول تعزيز المراقبة الذكية باستخدام Ultralytics YOLO11.
  2. القيادة الذاتية: بالنسبة للسيارات ذاتية القيادة، يعد فهم الطريق أمراً بالغ الأهمية. حيث تقوم نماذج فهم الفيديو بتحليل التغذية من الكاميرات للتنبؤ بنوايا المشاة وتفسير سلوك المركبات الأخرى والتعرف على إشارات المرور في السيناريوهات المعقدة. هذا المستوى العميق من الفهم ضروري للملاحة الآمنة والموثوقة. غالباً ما يعتمد هذا المجال على الأبحاث المكثفة في مجال التعرف على الحركة للأنظمة ذاتية القيادة.

وتشمل التطبيقات الأخرى الإشراف على المحتوى على منصات التواصل الاجتماعي من خلال الإبلاغ عن مقاطع الفيديو غير المناسبة، والتحليلات الرياضية من خلال تلخيص أبرز المباريات، وإنشاء تجارب تفاعلية في مجال الترفيه. توفر منصات مثل Ultralytics HUB الأدوات اللازمة لتدريب النماذج المخصصة لهذه المهام المتخصصة، بينما تعمل عمليات التكامل مع أدوات مثل TensorRT على تحسينها للاستدلال في الوقت الفعلي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة