استكشف فهم الفيديو، الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرف على كيفية عمله وتطبيقات الطاقة في القيادة الذاتية والأمن الذكي.
فهم الفيديو هو مجال سريع التطور في مجال الرؤية الحاسوبية (CV) و والذكاء الاصطناعي (AI) الذي يركز على تمكين الآلات من تفسير البيانات المرئية وتحليلها بمرور الوقت. على عكس مجال القياسي للتعرف على الصور، والذي يحلل لقطات اللقطات الثابتة، فإن فهم الفيديو يعالج تسلسل الإطارات لفهم الديناميكيات الزمنية الديناميكيات الزمنية والسياق والعلاقات السببية داخل المشهد. تسمح هذه القدرة للأنظمة ليس فقط بتحديد الأشياء الموجودة فحسب، بل أيضًا استنتاج ما يحدث، والتنبؤ بالأفعال المستقبلية وفهم "القصة" وراء المدخلات البصرية. هذا النهج الشامل ضروري لإنشاء أنظمة تتفاعل بشكل طبيعي مع العالم المادي بشكل طبيعي مع العالم المادي، من المركبات ذاتية القيادة التي تتنقل في حركة المرور إلى المساعدين الأذكياء الذين يراقبون سلامة المنزل.
تتضمن البنية التقنية الكامنة وراء فهم الفيديو تعقيدًا أكبر بكثير من التعقيد الذي ينطوي عليه الثابتة. لمعالجة الفيديو بفعالية يجب أن تتعامل نماذج التعلّم العميق مع السمات المكانية (مظهر الأجسام) والسمات الزمنية (كيفية تحرك هذه الأجسام وتغيرها).
غالبًا ما تستخدم الأنظمة الحديثة خط أنابيب متعدد المراحل:
غالبًا ما يتم دعم هذه العملية بواسطة تقنيات التدفق البصري track الحركة بشكل واضح بين الإطارات، مما يعزز قدرة النموذج على تمييز أنماط الحركة. تتيح التطورات في الحوسبة المتطورة في الحوسبة المتط ورة تسمح بتنفيذ هذه المهام المكثفة حسابيًا المكثفة حاسوبيًا على الأجهزة من أجل للاستدلال في الوقت الحقيقي.
من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية ذات الصلة لتقدير نطاقه:
تدفع القدرة على فهم المشاهد الديناميكية إلى الابتكار في الصناعات الكبرى:
الخطوة الأساسية في فهم الفيديو هي التتبع الموثوق للكائنات. يوضح المثال التالي كيفية تنفيذ التتبع باستخدام Ultralytics YOLO11 . وهذا يحدد الاستمرارية الزمنية المطلوبة للتحليل على مستوى أعلى. واستشرافًا للمستقبل، تهدف النماذج القادمة مثل YOLO26 تهدف إلى زيادة دمج هذه القدرات من أجل معالجة أسرع للفيديو من البداية إلى النهاية.
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
على الرغم من التقدم الكبير المحرز، يواجه فهم الفيديو تحديات مثل ارتفاع التكاليف الحسابية العالية وصعوبة التعامل مع الانسدادات حيث تختفي الأجسام تختفي مؤقتاً من العرض. يعمل الباحثون بنشاط على بنى نموذجية فعالة لتقليل زمن الاستجابة و والتعلم الذاتي الخاضع للإشراف الذاتي لتدريب النماذج على كميات هائلة من بيانات الفيديو غير المسماة.
أدوات مثل NVIDIA TensorRT و ONNX كثيرًا ما يُستخدمان تحسين هذه النماذج الثقيلة للنشر. مع تقدم هذا المجال، يمكننا أن نتوقع تكاملًا أكثر إحكامًا بين الذكاء الاصطناعي متعدد الوسائط، والجمع بين الفيديو والصوت والنص لفهم أعمق.