Action Recognition
Eylem tanımanın videodaki davranışları nasıl tanımladığını keşfet. Poz tahmini için Ultralytics YOLO26 kullanmayı ve HAR görevleri için akıllı yapay zeka sistemleri oluşturmayı öğren.
Eylem tanıma, yaygın olarak İnsan Aktivitesi Tanıma (HAR) olarak da bilinir ve video verilerindeki özneler tarafından gerçekleştirilen belirli davranışları veya hareketleri tanımlamak ve sınıflandırmakla ilgilenen bilgisayarlı görü (CV) alanının dinamik bir alt dalıdır. Geleneksel nesne algılama "görüntüde ne var?" sorusunu yanıtlarken, eylem tanıma "zaman içinde neler oluyor?" şeklindeki daha karmaşık soruyu ele alır. Makine öğrenimi (ML) modelleri, statik görüntüler yerine kare dizilerini analiz ederek "yürüme", "bisiklete binme", "düşme" veya "el sıkışma" gibi karmaşık aktiviteler arasında ayrım yapabilir; bu da onu insan niyetini ve bağlamını anlayan akıllı sistemler oluşturmak için çok önemli bir bileşen haline getirir.
Link to this sectionTemel Kavramlar ve Teknikler#
Eylemleri tanımak, bir modelin hem uzamsal bilgiyi (nesnelerin veya insanların neye benzediği) hem de zamansal bilgiyi (zaman içinde nasıl hareket ettikleri) işlemesini gerektirir. Bunu başarmak için modern yapay zeka (AI) sistemleri, standart evrişimli sinir ağlarının (CNN'ler) ötesine geçen özel mimariler kullanır.
- Poz Tahmini: Modelin insan vücudu üzerindeki dirsekler, dizler ve omuzlar gibi belirli anahtar noktaları takip ettiği güçlü bir tekniktir. Bu anahtar noktalarındaki zamansal geometrik değişiklikler, arka plan karmaşasından bağımsız olarak eylemleri sınıflandırmak için güçlü bir sinyal sağlar.
- Zamansal Modelleme: Algoritmalar, geçmiş kareleri hatırlamak ve gelecekteki eylemleri tahmin etmek için Yinelemeli Sinir Ağları (RNN'ler) veya Uzun Kısa Süreli Bellek (LSTM) ağları gibi yapılar kullanır. Daha yakın zamanda, Video Transformer'ları, video akışlarındaki uzun menzilli bağımlılıkları yönetme yetenekleri nedeniyle popülerlik kazanmıştır.
- İki Kanallı Ağlar: Bu yaklaşım, uzamsal özellikleri (RGB kareleri) ve zamansal özellikleri (genellikle optik akış kullanılarak) paralel kanallarda işler ve nihai sınıflandırmayı yapmak için verileri birleştirir.
Link to this sectionGerçek Dünya Uygulamaları#
İnsan hareketini otomatik olarak yorumlama yeteneği, çeşitli endüstrilerde dönüştürücü bir potansiyele sahiptir; güvenliği, verimliliği ve kullanıcı deneyimini artırır.
- Sağlık Hizmetlerinde Yapay Zeka: Eylem tanıma, hasta izleme sistemleri için hayati öneme sahiptir. Örneğin, bakım evlerinde otomatik düşme algılamayı sağlar ve bir hasta yere yığılırsa personeli derhal uyarır. Ayrıca, yapay zeka koçlarının hastanın egzersiz formunu analiz ederek hareketleri doğru ve güvenli bir şekilde yapmalarını sağladığı uzaktan fiziksel rehabilitasyon alanında da kullanılır.
- Akıllı Gözetim ve Güvenlik: Basit hareket algılamanın ötesinde, gelişmiş güvenlik sistemleri; kavga etme, dükkan hırsızlığı veya yetkisiz giriş gibi şüpheli davranışları tanımlamak için eylem tanılamayı kullanırken, zararsız aktiviteleri görmezden gelir. Bu, yanlış alarmları azaltır ve gerçek zamanlı güvenlik izlemeyi iyileştirir.
Link to this sectionUltralytics ile Eylem Analizini Uygulama#
Yaygın bir iş akışı, önce insanların ve onların iskelet pozlarının algılanmasını, ardından bu eklemlerin hareketinin analiz edilmesini içerir. Ultralytics YOLO26 modeli, birçok eylem tanıma hattının temelini oluşturan ilk poz tahmini adımı için son teknoloji hız ve doğruluk sağlar.
Aşağıdaki örnek, Python kullanarak bir video karesinden iskelet anahtar noktalarının nasıl çıkarılacağını göstermektedir:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")Link to this sectionİlgili Terimlerin Ayrıştırılması#
Doğru yöntemlerin uygulandığından emin olmak için eylem tanılamayı benzer bilgisayarlı görü görevlerinden ayırmak önemlidir.
- Eylem Tanıma ve Nesne Takibi: Nesne takibi, belirli bir nesnenin veya kişinin kareler arasında hareket ederken kimliğinin korunmasına odaklanır (örneğin, "A kişisi X koordinatında"). Eylem tanıma ise takip edilen bu öznenin davranışını yorumlar (örneğin, "A kişisi koşuyor").
- Eylem Tanıma ve Video Anlama: Eylem tanıma belirli fiziksel eylemleri tanımlarken, video anlama bir video sahnesindeki tüm anlatıyı, bağlamı ve nedensel ilişkileri kavrayan daha geniş bir kavramdır.
Link to this sectionZorluklar ve Gelecek Eğilimleri#
Developing robust action recognition models presents challenges, particularly regarding the need for large, annotated video datasets like Kinetics-400 or UCF101. Labeling video data is significantly more time-consuming than labeling static images. To address this, tools like the Ultralytics Platform help streamline the annotation and training workflow.
Ayrıca, hesaplama verimliliği kritik öneme sahiptir. Yüksek çözünürlüklü videoyu gerçek zamanlı olarak işlemek önemli donanım kaynakları gerektirir. Endüstri, gecikmeyi ve bant genişliği kullanımını azaltmak için modelleri doğrudan kameralar ve mobil cihazlar üzerinde çalışacak şekilde optimize ederek Edge AI alanına doğru ilerlemektedir. Gelecekteki ilerlemeler, model genelleştirmesini iyileştirmeyi ve sistemlerin açıkça eğitilmedikleri bakış açılarından bile eylemleri tanımasına olanak sağlamayı amaçlamaktadır.






