استكشف فهم الفيديو، الذكاء الاصطناعي المتقدم الذي يفسر الإجراءات والأحداث في الفيديو. تعرف على كيفية عمله وتطبيقات الطاقة في القيادة الذاتية والأمن الذكي.
يشير فهم الفيديو إلى قدرة نماذج التعلم الآلي على معالجة البيانات المرئية وتحليلها وفهمها بمرور الوقت. على عكس التعرف على الصور، الذي يحلل اللقطات الثابتة، يتضمن فهم الفيديو تفسير تسلسل الإطارات لفهم الديناميكيات الزمنية والسياق والعلاقات السببية. وهذا يسمح لنظام الذكاء الاصطناعي ليس فقط بتحديد الكائنات، ولكن أيضًا بفهم الإجراءات والأحداث و"القصة" التي تتكشف داخل مقطع الفيديو. وهو مكون أساسي في الرؤية الحاسوبية الحديثة (CV) التي تدعم التطبيقات الديناميكية التي تتراوح من الملاحة المستقلة إلى تحليلات الرياضة الآلية.
يتطلب تحليل الفيديو التعامل مع نوعين مختلفين من المعلومات: المكانية والزمانية. تتعلق الميزات المكانية بما يظهر في إطار واحد (الأشياء والخلفيات والأنسجة)، بينما تصف الميزات الزمانية كيفية تغير هذه العناصر بمرور الوقت (الحركة والسرعة والتفاعل).
غالبًا ما تستخدم أنظمة فهم الفيديو الحديثة نهجًا متعدد المراحل:
إن فهم الفيديو يغير الصناعات من خلال أتمتة المهام البصرية المعقدة التي كانت تتطلب في السابق مراقبة بشرية .
من المهم التمييز بين فهم الفيديو ومهام الرؤية الحاسوبية الأخرى:
يعد الكشف عن الكائنات وتتبعها بشكل قوي أحد العناصر الأساسية لفهم الفيديو. يوضح المثال التالي كيفية تنفيذ التتبع باستخدام نموذج Ultralytics . وهذا يؤسس الاستمرارية الزمنية اللازمة لتحليل السلوك على مستوى أعلى.
import cv2
from ultralytics import YOLO
# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)
# Process video frames
while cap.isOpened():
success, frame = cap.read()
if success:
# Track objects with persistence to maintain IDs over time
results = model.track(frame, persist=True)
# Visualize the results
annotated_frame = results[0].plot()
cv2.imshow("YOLO26 Tracking", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
break
cap.release()
cv2.destroyAllWindows()
على الرغم من التقدم المحرز، لا يزال فهم الفيديو عملية حسابية مكثفة بسبب الحجم الهائل للبيانات في تدفقات الفيديو عالية الدقة. يعمل الباحثون بنشاط على تطوير بنى نماذج أكثر كفاءة لتقليل زمن الاستجابة و تكاليف الحوسبة. تقنيات مثل تكمية النماذج والتقليص ضرورية لنشر هذه النماذج على الأجهزة الطرفية.
تشير التطورات المستقبلية إلى الذكاء الاصطناعي متعدد الوسائط، حيث يتم دمج بيانات الفيديو مع السياق الصوتي والنصي من أجل فهم أعمق. على سبيل المثال، قد يستخدم نموذج ما صوت صرير الإطارات مع البيانات المرئية للتعرف بشكل أسرع على حادث مروري. أدوات مثل NVIDIA TensorRT و OpenVINO تستمر في لعب دور حيوي في تحسين هذه النماذج المعقدة للاستدلال في الوقت الفعلي.