Eylem tanıma özelliğinin videolardaki davranışları nasıl belirlediğini keşfedin. Ultralytics poz tahmini için kullanmayı öğrenin ve HAR görevleri için akıllı AI sistemleri oluşturun.
Eylem tanıma, genellikle İnsan Etkinliği Tanıma (HAR) olarak da bilinir ve bilgisayar görüşünün (CV) dinamik bir alt alanıdır. Bu alan, video verilerinde denekler tarafından gerçekleştirilen belirli davranışları veya hareketleri tanımlamak ve sınıflandırmakla ilgilenir. Geleneksel nesne algılama "görüntüde ne var?" sorusuna cevap verirken, eylem tanıma "zaman içinde ne oluyor?" sorusuna cevap verir. Statik görüntüler yerine kare dizilerini analiz ederek, makine öğrenimi (ML) modelleri "yürümek", "bisiklete binmek", "düşmek" veya "el sıkışmak" gibi karmaşık faaliyetleri ayırt edebilir, bu da onu insan niyetini ve bağlamını anlayan akıllı sistemler oluşturmak için önemli bir bileşen haline getirir.
Eylemleri tanımak, hem uzamsal bilgileri (nesnelerin veya insanların neye benzediği) hem de zamansal bilgileri (zaman içinde nasıl hareket ettikleri) işlemek için bir model gerektirir. Bunu başarmak için, modern yapay zeka (AI) sistemleri genellikle standart evrişimli sinir ağlarının (CNN) ötesine geçen özel mimariler kullanır.
İnsan hareketlerini otomatik olarak yorumlama yeteneği, çeşitli sektörlerde dönüştürücü bir potansiyele sahiptir ve güvenliği, verimliliği ve kullanıcı deneyimini iyileştirir.
Yaygın bir iş akışı, önce insanları ve iskelet pozlarını tespit etmek, ardından bu eklemlerin hareketlerini analiz etmektir. Ultralytics modeli, birçok eylem tanıma boru hattının temelini oluşturan ilk poz tahmin adımı için son teknoloji hız ve doğruluk sağlar. .
Aşağıdaki örnek, Python kullanarak bir video karesinden iskelet anahtar noktalarını nasıl çıkaracağınızı göstermektedir:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
Doğru yöntemlerin uygulanmasını sağlamak için eylem tanıma ile benzer bilgisayar görme görevlerini birbirinden ayırmak önemlidir .
Güçlü eylem tanıma modelleri geliştirmek, özellikle Kinetics-400 veya UCF101 gibi büyük, açıklamalı video veri kümelerine duyulan ihtiyaç açısından zorluklar ortaya çıkarmaktadır. Video verilerini etiketlemek, statik görüntüleri etiketlemekten çok daha zaman alıcıdır. Bu sorunu çözmek için, Ultralytics gibi araçlar açıklama ve eğitim iş akışını kolaylaştırmaya yardımcı olmaktadır.
Ayrıca, hesaplama verimliliği de çok önemlidir. Yüksek çözünürlüklü videoları gerçek zamanlı olarak işlemek, önemli donanım kaynakları gerektirir. Sektör, gecikme süresini ve bant genişliği kullanımını azaltmak için Edge AI'ya doğru giderek daha fazla yönelmekte ve modelleri doğrudan kameralar ve mobil cihazlarda çalışacak şekilde optimize etmektedir. Gelecekteki gelişmeler, model genelleştirmeyi iyileştirmeyi ve sistemlerin açıkça eğitilmedikleri bakış açılarından bile eylemleri tanıyabilmelerini sağlamayı amaçlamaktadır.