Eylem Tanıma (İnsan Aktivitesi Tanıma): video, poz tahmini ve derin öğrenmenin sağlık, güvenlik ve spor için insan eylemlerini nasıl detect keşfedin.
Sıklıkla İnsan Etkinliği Tanıma (HAR) olarak adlandırılan Eylem Tanıma, bilgisayar görme (CV) alanının, video verileri içindeki belirli hareketleri veya davranışları tanımlama ve sınıflandırmaya odaklanan özel bir dalıdır. Standart görüntü tanıma, detect statik kareleri analiz ederken, eylem tanıma, dinamik olayları yorumlamak için dördüncü boyut olan zamanı da dahil eder. Kare dizilerini işleyerek, gelişmiş Yapay Zeka (AI) sistemleri, yürüme, el sallama, düşme veya belirli bir spor tekniğini uygulama gibi karmaşık davranışları ayırt edebilir. Bu yetenek, insan niyetini anlayabilen ve gerçek dünya ortamlarında güvenli bir şekilde etkileşim kurabilen akıllı sistemler oluşturmak için gereklidir.
Eylemleri doğru bir şekilde tanımlamak için, Derin Öğrenme (DL) modelleri iki temel özellik türünü ayıklamalı ve sentezlemelidir: uzamsal ve zamansal. Uzamsal özellikler, genellikle Convolutional Neural Networks (CNNs) kullanarak, bir kişinin veya nesnenin varlığı gibi sahnenin görsel görünümünü yakalar. Zamansal özellikler, bu unsurların zaman içinde nasıl değiştiğini tanımlayarak, "oturma" eylemini "ayağa kalkma" eyleminden ayırmak için gerekli bağlamı sağlar.
Modern yaklaşımlar, yüksek doğruluk elde etmek için genellikle çok aşamalı bir süreç kullanır:
İnsan hareketlerinin yorumlanmasını otomatikleştirme yeteneği, çeşitli sektörlerde önemli ölçüde benimsenmesini sağlamıştır. İşletmeler fiziksel iş akışlarını dijitalleştirmek ve güvenliği artırmak için çaba gösterirken, küresel insan aktivitesi tanımapazarı büyümeye devam etmektedir.
Sağlık hizmetlerinde yapay zeka alanında, eylem tanıma, otomatik hasta izleme için çok önemlidir. Sistemler, hastanelerde veya yardımlı yaşam tesislerinde detect üzere eğitilebilir ve hemşirelik personeline anında uyarılar gönderebilir. Ayrıca, bilgisayar görüşü, uzaktan fiziksel rehabilitasyonu kolaylaştırır. Hastanın egzersiz şeklini gerçek zamanlı olarak analiz ederek, iyileşmeye yardımcı olmak ve yaralanmaları önlemek için hareketleri doğru şekilde gerçekleştirmelerini sağlar.
Koçlar ve yayıncılar, spor alanında yapay zekayı kullanarak sporcuların performansını analiz ediyor. Hareket tanıma algoritmaları, maç görüntülerindeki olayları (örneğin basketbol şutu, tenis servisi veya futbol pası) otomatik olarak etiketleyerek ayrıntılı istatistiksel analizlere olanak tanıyor. Bu veriler, tekniğin iyileştirilmesine ve belirli oyuncu hareket modellerine dayalı stratejilerin geliştirilmesine yardımcı oluyor.
Eylem Tanıma'yı bilgisayarlı görü alanındaki benzer terimlerden ayırmak, bu terimlere en uygun terimi seçmek için önemlidir. iş için doğru araç.
Birçok eylem tanıma sürecinde temel bir adım, iskelet verilerini çıkarmaktır. Aşağıdaki Python örneği
, ultralytics kütüphane ile
YOLO26 aşağı akış eylem sınıflandırması için temel veri katmanı görevi gören
poz anahtar noktalarını çıkarmak.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
Bu sistemlerin kullanılması, büyük miktarda etiketli eğitim verisine duyulan ihtiyaç ve video işleme hesaplama maliyeti gibi zorluklar ortaya çıkarmaktadır. Kinetics-400 gibi karşılaştırmalı veri setleri, model performansını değerlendirmek için standarttır.
Donanım geliştikçe, Edge AI'ya doğru bir geçiş yaşanıyor ve modellerin doğrudan kameralar veya mobil cihazlarda çalıştırılmasına olanak tanınıyor. Bu, video verilerinin buluta gönderilmesine gerek kalmadığı için daha düşük gecikme süresi ve daha iyi gizlilik ile gerçek zamanlı çıkarım yapılmasını sağlıyor. Gelecekteki gelişmeler, bu karmaşık tanıma görevlerini destekleyen temel algılama ve poz tahmin motorlarının hızını ve doğruluğunu daha da optimize etmeyi amaçlıyor.