Sözlük

Video Anlayışı

Videodaki eylemleri ve olayları yorumlayan gelişmiş yapay zeka Video Understanding'i keşfedin. Nasıl çalıştığını ve otonom sürüş ve akıllı güvenlik uygulamalarına nasıl güç verdiğini öğrenin.

Video Anlama, makinelerin videoların içeriğini otomatik olarak yorumlamasını ve analiz etmesini sağlayan gelişmiş bir Yapay Zeka (AI) ve Bilgisayarla Görme (CV) alanıdır. Statik görüntülerin işlenmesinden farklı olarak video anlama, yalnızca nesneleri değil, aynı zamanda eylemlerini, etkileşimlerini ve olayların zamansal bağlamını tanımak için kare dizilerini analiz etmeyi içerir. İnsanların dinamik sahneleri algılama ve yorumlama biçimine benzer şekilde, video verilerinin bütünsel bir şekilde kavranmasını amaçlar. Bu yetenek, otonom araçlardan otomatik gözetim ve içerik moderasyonuna kadar geniş bir uygulama yelpazesi için temel oluşturur.

Video Anlama Nasıl Çalışır?

Video anlama sistemleri, görsel ve zamansal bilgileri işlemek ve yorumlamak için tipik olarak birden fazla yapay zeka tekniğini entegre eder. Süreç, tek tek video kareleri üzerinde gerçekleştirilen temel bilgisayarla görme görevleriyle başlar. Bu görevler genellikle şunları içerir:

  • Nesne Algılama: Her kare içindeki nesnelerin tanımlanması ve konumlandırılması. Ultralytics YOLO gibi modeller bu ilk adım için oldukça etkilidir.
  • Nesne Takibi: Hareketlerini ve kalıcılıklarını anlamak için tanımlanan nesneleri bir dizi kare boyunca takip etmek.
  • Poz Tahmini: İnsan eylemlerini analiz etmek için çok önemli olan insan vücudunun duruşunu ve kilit noktalarını tanıma.
  • Görüntü Segmentasyonu: Nesnelerin kesin şeklini ve sınırlarını anlamak için bir karedeki her pikseli sınıflandırmak.

Bu uzamsal özellikler çıkarıldıktan sonra sistem, Tekrarlayan Sinir Ağları (RNN' ler) veya daha yaygın olarak modern mimarilerde Transformatör ağları gibi sıralı veriler için tasarlanmış modelleri kullanarak bunları zaman içinde analiz eder. Bu modeller nesnelerin ve sahnelerin nasıl değiştiğine dair kalıpları belirleyerek eylem tanıma, olay algılama ve video özetleme gibi daha üst düzey görevleri mümkün kılar. 3D Evrişimsel Sinir Ağları gibi bazı gelişmiş mimariler, uzamsal ve zamansal özellikleri aynı anda öğrenmek için tasarlanmıştır. Tüm süreç, verimli eğitim, dağıtım ve izleme sağlamak için uyumlu bir Makine Öğrenimi Operasyonları (MLOps) çerçevesi içinde yönetilir.

Video Anlama ve İlgili Kavramlar

Video Anlama'yı diğer ilgili bilgisayarla görme görevlerinden ayırmak önemlidir.

  • Video Anlama ve Nesne Algılama/Takip Etme: Nesne algılama tek bir karede ne olduğunu tanımlar ve nesne izleme bu nesneleri birden fazla kare boyunca takip eder. Video Anlama, zaman içinde meydana gelen eylemler, olaylar ve etkileşimlerin nedeniniyorumlamak için bu görevlerin çıktılarını kullanır. Örneğin, bir kişiyi izlemek nesne izlemedir; kişinin bir kapıyı açtığını belirlemek ise video anlamadır.
  • Video Anlama ve Görüntü Tanıma: Görüntü Tanıma, tek bir statik görüntüdeki nesneleri veya sahneleri sınıflandırmaya odaklanır. Video Anlama, dinamik olayları anlamak için bir dizi görüntüyü analiz ederek bu kavramı zaman boyutuna genişletir. Sadece "ne "yi değil, aynı zamanda "nasıl" ve "ne zaman "ı da anlamayı gerektirir.
  • Video Anlama ve Metinden Videoya: Metinden Videoya, metinsel açıklamalardan video içeriği oluşturan üretken bir yapay zeka görevidir. Buna karşılık, video anlama, mevcut video içeriğinden anlam çıkaran ve açıklamalar veya yapılandırılmış veriler üreten analitik bir görevdir.

Gerçek Dünya Uygulamaları

Video anlayışı, çeşitli sektörlerde giderek artan sayıda yenilikçi çözüme güç veriyor.

  1. Akıllı Gözetim ve Güvenlik: Güvenlik uygulamalarında, video anlama sistemleri olağandışı faaliyetleri otomatik olarak tespit edebilir. Örneğin, bir sistem bir hastanın ne zaman düştüğünü belirlemek için hastanedeki gözetim yayınlarını izleyebilir veya hırsızlığı tespit etmek için bir perakende mağazasındaki trafiği analiz edebilir. Bu sistemler, eylemlerin bağlamını anlayarak basit hareket algılamanın ötesine geçer, yanlış alarmları önemli ölçüde azaltır ve daha hızlı yanıtlar sağlar. Ultralytics YOLO11 ile akıllı gözetimi geliştirme hakkında daha fazla bilgi edinebilirsiniz.
  2. Otonom Sürüş: Sürücüsüz otomobiller için yolu anlamak kritik önem taşır. Video anlama modelleri, yayaların niyetlerini tahmin etmek, diğer araçların davranışlarını yorumlamak ve karmaşık senaryolarda trafik sinyallerini tanımak için kameralardan gelen beslemeleri analiz eder. Bu derin kavrayış seviyesi, güvenli ve güvenilir navigasyon için gereklidir. Bu alan genellikle otonom sistemler için eylem tanıma konusundaki kapsamlı araştırmalara dayanır.

Diğer uygulamalar arasında uygunsuz videoları işaretleyerek sosyal medya platformlarında içerik moderasyonu, maç özetlerini özetleyerek spor analitiği ve eğlencede etkileşimli deneyimler oluşturma yer alır. Ultralytics HUB gibi platformlar, bu özel görevler için özel modelleri eğitmek için araçlar sağlarken, TensorRT gibi araçlarla entegrasyonlar bunları gerçek zamanlı çıkarım için optimize eder.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı