Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Video Anlama

Video Anlama'nın eylemleri yorumlamak için zamansal dinamikleri nasıl analiz ettiğini keşfedin. Gelişmiş yapay zeka için Ultralytics ile gerçek zamanlı izlemeyi uygulamayı öğrenin.

Video Anlama, makinelerin zaman içinde görsel verileri algılamasını, analiz etmesini ve yorumlamasını sağlamaya odaklanan bilgisayar görme (CV) alanının sofistike bir dalıdır. Statik anlık görüntüleri ayrı ayrı işleyen standart görüntü tanımadan farklı olarak, video anlama, zamansal dinamikleri, bağlamı ve nedensel ilişkileri kavramak için çerçeve dizilerini analiz etmeyi içerir. Zamanın "dördüncü boyutunu" işleyerek, AI sistemleri basit nesneleri tanımlamanın ötesine geçerek bir sahnede gerçekleşen eylemleri, olayları ve anlatıyı kavrayabilir. Bu yetenek, dinamik gerçek dünya ortamlarında güvenli ve etkili bir şekilde etkileşim kurabilen akıllı sistemler oluşturmak için gereklidir.

Video Analizinin Temel Bileşenleri

Video içeriğini başarılı bir şekilde yorumlamak için modeller iki temel bilgi türünü sentezlemelidir: uzamsal özellikler (karede ne var) ve zamansal özellikler (şeyler nasıl değişiyor). Bu, genellikle birden fazla sinir ağı stratejisini birleştiren karmaşık bir mimari gerektirir .

  • Konvolüsyonel Sinir Ağları (CNN'ler): Bu ağlar genellikle uzamsal backbone görevi görür ve tek tek karelerden şekiller, dokular ve nesneler gibi görsel özellikleri çıkarır.
  • Tekrarlayan Sinir Ağları (RNN'ler): Uzun Kısa Süreli Bellek (LSTM) birimleri gibi mimariler, CNN tarafından çıkarılan özellik dizisini işlemek için kullanılır ve modelin geçmiş kareleri "hatırlamasına" ve gelecekteki durumları tahmin etmesine olanak tanır.
  • Optik Akış: Birçok sistem, kareler arasındaki piksellerin hareket vektörlerini açıkça hesaplamak için optik akış algoritmaları kullanır ve nesnenin görünümünden bağımsız olarak hız ve yön hakkında kritik veriler sağlar.
  • Görsel Dönüştürücüler (ViT'ler): Modern yaklaşımlar, farklı karelerin veya bölgelerin önemini değerlendirmek için giderek daha fazla dikkat mekanizmalarına güveniyor ve bu da modelin uzun bir video akışındaki önemli olaylara odaklanmasını sağlıyor .

Gerçek Dünya Uygulamaları

Zamansal bağlamı anlama yeteneği, çeşitli endüstrilerde gelişmiş otomasyonun önünü açmıştır.

  • Otonom Araçlar: Otonom araçlar, yayaların ve diğer araçların hareketlerini tahmin etmek için video algılama teknolojisini kullanır. Hareket kalıplarını analiz ederek, sistem olası çarpışmaları önceden tahmin edebilir ve karmaşık manevralar gerçekleştirebilir.
  • Eylem Tanıma: Spor analitiği ve sağlık izleme alanlarında, sistemler oyuncunun gol atması veya hastanın düşmesi gibi belirli insan faaliyetlerini tanımlayarak otomatik içgörüler veya uyarılar sağlar.
  • Akıllı Perakende: Mağazalar, hırsızlığı tespit etmek veya daha iyi bir düzen optimizasyonu için müşteri trafiği modellerini analiz etmek amacıyla anormallik tespiti için bu sistemleri kullanmaktadır.
  • İçerik Denetimi: Büyük medya platformları, video anlamayı kullanarak uygunsuz içeriği otomatik olarak işaretliyor veya yüklemeleri konuya göre sınıflandırıyor, böylece manuel inceleme ihtiyacını büyük ölçüde azaltıyor.

İlgili Kavramları Ayırt Etme

Video anlayışı geniş bir yetenek yelpazesini kapsasa da, AI dünyasındaki birçok ilgili terimden farklıdır.

  • Video Anlama ve Nesne Takibi: İzleme, bir nesnenin (örneğin belirli bir araba) kareler arasında hareket ederken benzersiz kimliğini korumaya odaklanır. Video anlama ise, o arabanın davranışını yorumlar; örneğin, "park ediyor" veya "hız yapıyor" olduğunu tanır.
  • Video Anlama ve Duruş Tahmini: Poz tahmini, tek bir karede veya sekansda vücut eklemlerinin geometrik konfigürasyonunu algılar. Video anlama, bu verileri kullanarak hareketin anlamını, örneğin "merhaba diye el sallama" gibi, çıkarır.
  • Video Anlama ve Çok Modlu Yapay Zeka: Video anlama görsel dizilere odaklanırken, çok modlu yapay zeka daha bütünsel bir analiz için videoyu ses, metin veya sensör verileriyle birleştirir.

YOLO26 ile Video Analizi Uygulaması

Video anlayışında temel bir adım, zamansal sürekliliği sağlamak için nesneleri sağlam bir şekilde algılamak ve izlemektir. Ultralytics modeli, gerçek zamanlı izleme için en son teknoloji performansı sunar ve bu da daha üst düzey davranış analizinin öncüsü görevi görür.

Aşağıdaki örnek, Python kullanarak bir video kaynağında nesne izlemeyi nasıl gerçekleştirebileceğinizi göstermektedir:

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Zorluklar ve Gelecekteki Eğilimler

Önemli ilerlemelere rağmen, yüksek çözünürlüklü video akışlarındaki veri hacminin çokluğu nedeniyle video anlaması hesaplama açısından hala maliyetlidir. 3D konvolüsyonlar veya zamansal dönüştürücüler için FLOPS hesaplamak, kenar AI cihazları için çok pahalı olabilir. Bu sorunu çözmek için araştırmacılar, Zamansal Kayma Modülü (TSM) gibi verimli mimariler geliştiriyor ve Opti-Cube gibi optimizasyon araçlarından yararlanıyor. NVIDIA TensorRT gibi optimizasyon araçlarından yararlanarak gerçek zamanlı çıkarımları mümkün kılıyorlar.

Gelecekteki gelişmeler, modellerin daha derin bir anlayış elde etmek için sesli ipuçlarını (örneğin siren) ve metinsel bağlamı entegre ettiği sofistike çok modlu öğrenmeye doğru ilerliyor. Ultralytics gibi platformlar da karmaşık video veri kümelerinin anotasyonunu ve yönetimini kolaylaştırmak için gelişiyor ve belirli zamansal görevler için özel modellerin eğitilmesini kolaylaştırıyor. Bu, yapay zeka sistemlerinin daha akıllı ve daha etkili hale gelmesine yardımcı olacak.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın