Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

فهم الفيديو

استكشف فهم الفيديو، الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرف على كيفية عمله وتطبيقات الطاقة في القيادة الذاتية والأمن الذكي.

يشير فهم الفيديو إلى قدرة نماذج التعلم الآلي على معالجة البيانات المرئية وتحليلها وفهمها بمرور الوقت. على عكس التعرف على الصور، الذي يحلل اللقطات الثابتة، يتضمن فهم الفيديو تفسير تسلسل الإطارات لفهم الديناميكيات الزمنية والسياق والعلاقات السببية. وهذا يسمح لنظام الذكاء الاصطناعي ليس فقط بتحديد الكائنات، ولكن أيضًا بفهم الإجراءات والأحداث و"القصة" التي تتكشف داخل مقطع الفيديو. وهو مكون أساسي في الرؤية الحاسوبية الحديثة (CV) التي تدعم التطبيقات الديناميكية التي تتراوح من الملاحة المستقلة إلى تحليلات الرياضة الآلية.

الآليات الأساسية لتحليل الفيديو

يتطلب تحليل الفيديو التعامل مع نوعين مختلفين من المعلومات: المكانية والزمانية. تتعلق الميزات المكانية بما يظهر في إطار واحد (الأشياء والخلفيات والأنسجة)، بينما تصف الميزات الزمانية كيفية تغير هذه العناصر بمرور الوقت (الحركة والسرعة والتفاعل).

غالبًا ما تستخدم أنظمة فهم الفيديو الحديثة نهجًا متعدد المراحل:

  • استخراج الميزات المكانية: تقوم شبكة أساسية، مثل الشبكة العصبية التلافيفية (CNN) أو محول الرؤية (ViT)، بمعالجة الإطارات الفردية detect وتحديد الخصائص.
  • التجميع الزمني: لفهم الحركة، تستخدم النماذج بنى مثل شبكات الذاكرة الطويلة قصيرة المدى (LSTM) أو المحولات الزمنية. تحلل هذه المكونات كيفية تطور السمات المكانية عبر تسلسل، وغالبًا ما تستخدم آليات الانتباه للتركيز على اللحظات الحاسمة في الخط الزمني.
  • التفكير عالي المستوى: تتضمن المرحلة النهائية تصنيف الأنشطة أو التنبؤ بالأحداث المستقبلية. وهنا يميز النموذج بين الإجراءات المتشابهة، مثل "المشي" مقابل "الجري"، بناءً على سرعة وإيقاع الحركة.

تطبيقات واقعية

إن فهم الفيديو يغير الصناعات من خلال أتمتة المهام البصرية المعقدة التي كانت تتطلب في السابق مراقبة بشرية .

  • القيادة الذاتية: تعتمد السيارات ذاتية القيادة بشكل كبير على فهم الفيديو للتنبؤ بسلوك المشاة والمركبات الأخرى. من خلال تحليل مسار وسرعة الأجسام المحيطة، يمكن لنظام الإدراك في السيارة توقع الاصطدامات المحتملة واتخاذ قرارات قيادة آمنة.
  • التجزئة الذكية والأمن: في بيئات البيع بالتجزئة، يمكن للأنظمة تحليل سلوك المتسوقين لتحسين تصميم المتاجر أو detect . تستخدم تطبيقات الأمن الكشف عن الحالات الشاذة للإبلاغ عن الأنشطة غير العادية، مثل شخص يتسكع في منطقة محظورة أو تجمع مفاجئ للجمهور، مما ينبه الموظفين في الوقت الفعلي.
  • مراقبة الرعاية الصحية: يساعد فهم الفيديو في رعاية المرضى من خلال مراقبة الحركات بحثًا عن علامات الضائقة. على سبيل المثال، يمكن لخوارزميات تقدير الوضع تحليل أنماط المشي track تقدم track أو detect في مرافق رعاية المسنين دون استخدام أجهزة استشعار تدخلية.

التمييز بين المفاهيم الرئيسية

من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية الأخرى:

  • فهم الفيديو مقابل تتبع الكائنات: بينما يركز تتبع الكائنات على الحفاظ على هوية مثيل معين عبر الإطارات (على سبيل المثال، تتبع سيارة معينة)، فإن فهم الفيديو يفسر سياق إجراءات ذلك الكائن (على سبيل المثال، التعرف على أن السيارة تتجاوز إشارة مرور حمراء).
  • فهم الفيديو مقابل تحويل النص إلى فيديو: تحويل النص إلى فيديو هو عملية إنتاجية تخلق محتوى مرئيًا جديدًا من موجه نصي. فهم الفيديو هو عملية تحليلية تستخرج المعنى من اللقطات الموجودة.

تنفيذ تحليل الفيديو باستخدام Ultralytics

يعد الكشف عن الكائنات وتتبعها بشكل قوي أحد العناصر الأساسية لفهم الفيديو. يوضح المثال التالي كيفية تنفيذ التتبع باستخدام نموذج Ultralytics . وهذا يؤسس الاستمرارية الزمنية اللازمة لتحليل السلوك على مستوى أعلى.

import cv2
from ultralytics import YOLO

# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")

# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)

# Process video frames
while cap.isOpened():
    success, frame = cap.read()
    if success:
        # Track objects with persistence to maintain IDs over time
        results = model.track(frame, persist=True)

        # Visualize the results
        annotated_frame = results[0].plot()
        cv2.imshow("YOLO26 Tracking", annotated_frame)

        if cv2.waitKey(1) & 0xFF == ord("q"):
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()

التحديات والاتجاهات المستقبلية

على الرغم من التقدم المحرز، لا يزال فهم الفيديو عملية حسابية مكثفة بسبب الحجم الهائل للبيانات في تدفقات الفيديو عالية الدقة. يعمل الباحثون بنشاط على تطوير بنى نماذج أكثر كفاءة لتقليل زمن الاستجابة و تكاليف الحوسبة. تقنيات مثل تكمية النماذج والتقليص ضرورية لنشر هذه النماذج على الأجهزة الطرفية.

تشير التطورات المستقبلية إلى الذكاء الاصطناعي متعدد الوسائط، حيث يتم دمج بيانات الفيديو مع السياق الصوتي والنصي من أجل فهم أعمق. على سبيل المثال، قد يستخدم نموذج ما صوت صرير الإطارات مع البيانات المرئية للتعرف بشكل أسرع على حادث مروري. أدوات مثل NVIDIA TensorRT و OpenVINO تستمر في لعب دور حيوي في تحسين هذه النماذج المعقدة للاستدلال في الوقت الفعلي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن