Videodaki eylemleri ve olayları yorumlayan gelişmiş yapay zeka olan Video Anlamayı keşfedin. Nasıl çalıştığını ve otonom sürüş ve akıllı güvenlikteki uygulamalara nasıl güç verdiğini öğrenin.
Video Anlama, içinde hızla gelişen bir alandır Bilgisayarla Görme (CV) ve Yapay Zeka (AI) makinelerin görsel verileri zaman içinde yorumlamasını ve analiz etmesini sağlamaya odaklanır. Standarttan farklı olarak statik görüntüleri analiz eden görüntü tanıma anlık görüntüler, video anlama süreçleri zamansal kavramak için çerçeve dizileri Bir sahne içindeki dinamikler, bağlam ve nedensel ilişkiler. Bu yetenek, sistemlerin yalnızca neyi tanımlamasına izin vermekle kalmaz Nesnelerin mevcut olmasının yanı sıra, neler olduğu hakkında çıkarımda bulunmak, gelecekteki eylemleri tahmin etmek ve Görsel girdinin arkasındaki "hikaye". Bu bütünsel yaklaşım, birbiriyle etkileşim içinde olan sistemler oluşturmak için gereklidir doğal olarak fiziksel dünya ile trafi̇ği̇ akilli hale geti̇ren otonom araçlar ev güvenliğini izleyen asistanlar.
Videoyu anlamanın arkasındaki teknik mimari, statik görüntüden çok daha fazla karmaşıklık içerir nesne algılama. Videoyu etkili bir şekilde işlemek için, derin öğrenme modelleri eş zamanlı olarak uzamsal özellikler (nesnelerin görünümü) ve zamansal özellikler (bu nesnelerin nasıl hareket ettiği ve değiştiği).
Modern sistemler genellikle çok aşamalı bir boru hattı kullanır:
Bu süreç genellikle aşağıdakiler tarafından desteklenir hareketi açıkça track için optik akış teknikleri kareler arasındaki vektörler, modelin hareket modellerini ayırt etme yeteneğini geliştirir. Gelişmeler uç hesaplama, hesaplama açısından yoğun olan bu için cihazlarda yerel olarak gerçekleştirilecek görevler gerçek zamanlı çıkarım.
Kapsamını anlamak için video anlamayı ilgili bilgisayarla görme görevlerinden ayırmak önemlidir:
Dinamik sahneleri kavrama becerisi, büyük sektörlerde inovasyonu teşvik etmektedir:
Video anlamanın temel adımlarından biri güvenilir nesne takibidir. Aşağıdaki örnek nasıl yapılacağını göstermektedir kullanarak izlemeyi uygulayın Ultralytics YOLO11 model. Bu daha üst düzey analizler için gereken zamansal sürekliliği sağlar. İleriye baktığımızda, aşağıdaki gibi gelecek modeller YOLO26, bu yetenekleri aşağıdakiler için daha fazla entegre etmeyi amaçlamaktadır daha hızlı, uçtan uca video işleme.
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
Kayda değer ilerlemeye rağmen, video anlayışı yüksek çözünürlük gibi zorluklarla karşı karşıyadır hesaplama maliyetleri ve kullanım zorluğu nesnelerin bulunduğu tıkanıklıklar geçici olarak gözden kaybolur. Araştırmacılar aktif olarak şu konular üzerinde çalışıyor gecikmeyi azaltmak için verimli model mimarileri ve modelleri eğitmek için kendi kendine denetimli öğrenme büyük miktarda etiketsiz video verisi üzerinde.
Gibi araçlar NVIDIA TensorRT ve ONNX için sıklıkla kullanılır. bu ağır modelleri dağıtım için optimize etmek. Alan ilerledikçe, daha sıkı bir entegrasyon bekleyebiliriz videoyu ses ve metinle birleştiren multimodal yapay zeka daha derin bir kavrayış için.