Videodaki eylemleri ve olayları yorumlayan gelişmiş yapay zeka olan Video Anlamayı keşfedin. Nasıl çalıştığını ve otonom sürüş ve akıllı güvenlikteki uygulamalara nasıl güç verdiğini öğrenin.
Video Anlama, makine öğrenimi modellerinin zaman içinde görsel verileri işleme, analiz etme ve anlama yeteneğini ifade eder. Görüntü tanıma, Statik anlık görüntüleri analiz eden görüntü tanımadan farklı olarak, video anlama, zamansal dinamikleri, bağlamı ve nedensel ilişkileri kavramak için bir dizi kareyi yorumlamayı içerir. Bu, bir AI sisteminin sadece nesneleri tanımlamasını değil, aynı zamanda bir video klip içindeki eylemleri, olayları ve "hikayeyi" anlamasını da sağlar. Otonom navigasyondan otomatik spor analizine kadar dinamik uygulamalara güç veren modern bilgisayar görüşünün (CV) kritik bir bileşenidir.
Videoyu analiz etmek, iki farklı bilgi türünü ele almayı gerektirir: uzamsal ve zamansal. Uzamsal özellikler, tek bir karede görünenlerle (nesneler, arka planlar, dokular) ilgilidir, zamansal özellikler ise bu öğelerin zaman içinde nasıl değiştiğini (hareket, hız, etkileşim) tanımlar.
Modern video anlama sistemleri genellikle çok aşamalı bir yaklaşım kullanır:
Video anlayışı, daha önce insan gözlemi gerektiren karmaşık görsel görevleri otomatikleştirerek endüstrileri dönüştürüyor. .
Video anlamayı diğer bilgisayar görme görevlerinden ayırmak önemlidir:
Video anlamanın temel yapı taşı, sağlam nesne algılama ve izlemedir. Aşağıdaki örnek, Ultralytics modelini kullanarak izlemeyi nasıl uygulayacağınızı gösterir. Bu, daha üst düzey davranış analizi için gerekli olan zamansal sürekliliği sağlar.
import cv2
from ultralytics import YOLO
# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)
# Process video frames
while cap.isOpened():
success, frame = cap.read()
if success:
# Track objects with persistence to maintain IDs over time
results = model.track(frame, persist=True)
# Visualize the results
annotated_frame = results[0].plot()
cv2.imshow("YOLO26 Tracking", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
break
cap.release()
cv2.destroyAllWindows()
İlerlemelere rağmen, yüksek çözünürlüklü video akışlarındaki veri hacminin çokluğu nedeniyle video anlaması hesaplama açısından yoğun olmaya devam etmektedir. Araştırmacılar, gecikmeyi ve hesaplama maliyetlerini azaltmak için daha verimli model mimarileri geliştirmektedir. Model niceleme ve budama gibi teknikler, bu modelleri uç cihazlarda kullanmak için gereklidir.
Gelecekteki gelişmeler, daha derin bir anlayış için video verilerinin ses ve metin bağlamıyla birleştirildiği multimodal AI'ya işaret ediyor. Örneğin, bir model, trafik kazasını daha hızlı tanımlamak için görsel verilerle birlikte lastiklerin çığlık sesini kullanabilir. NVIDIA gibi araçlar NVIDIA TensorRT ve OpenVINO , bu karmaşık modelleri gerçek zamanlı çıkarım için optimize etmede hayati bir rol oynamaya devam etmektedir.