"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Fitness uygulamalarından hasta izlemeye kadar, bilgisayarla görmenin şu soruyu nasıl ele aldığını keşfedin: Yapay zeka gerçek dünya ortamlarında insan eylemlerini tespit edebilir mi?
Günlük hayat, üzerinde nadiren durup düşündüğümüz küçük hareketlerle doludur. Bir odanın içinde yürümek, masada oturmak veya bir arkadaşımıza el sallamak bize zahmetsiz gelebilir, ancak bunları yapay zeka ile tespit etmek çok daha karmaşıktır. İnsanlar için doğal olan bir şey, bir makine bunu anlamaya çalıştığında çok daha karmaşık bir şeye dönüşür.
Bu yetenek insan aktivitesi tanıma (HAR) olarak bilinir ve bilgisayarların insan davranışlarındaki kalıpları tespit etmesini ve yorumlamasını sağlar. Bir fitness uygulaması HAR'ın iş başında olduğu harika bir örnektir. Adımları ve egzersiz rutinlerini takip ederek, yapay zekanın günlük aktiviteleri nasıl izleyebileceğini gösterir.
HAR'ın potansiyelini gören birçok sektör bu teknolojiyi benimsemeye başladı. Aslında, insan eylemi tanıma pazarının 2033 yılına kadar 12,56 milyar doların üzerine çıkması bekleniyor.
Bu ilerlemenin önemli bir kısmı, makinelerin görüntüler ve videolar gibi görsel verileri analiz etmesini sağlayan bir YZ dalı olan bilgisayarla görme tarafından yönlendirilmektedir. Bilgisayarla görme ve görüntü tanıma sayesinde HAR, bir araştırma konseptinden son teknoloji YZ uygulamalarının pratik ve heyecan verici bir parçası haline geldi.
Bu makalede, HAR'ın ne olduğunu, insan eylemlerini tanımak için kullanılan farklı yöntemleri ve bilgisayarla görmenin soruyu yanıtlamaya nasıl yardımcı olduğunu inceleyeceğiz: Yapay zeka gerçek dünya uygulamalarında insan eylemlerini tespit edebilir mi? Hadi başlayalım!
İnsan eylemi tanıma nedir?
İnsan eylemi tanıma, bilgisayar sistemlerinin vücut hareketlerini analiz ederek insan faaliyetlerini veya eylemlerini anlamasını mümkün kılar. Bir görüntüdeki bir kişiyi tespit etmenin aksine HAR, kişinin ne yaptığını tanımlamaya yardımcı olabilir. Örneğin, yürümek ve koşmak arasında ayrım yapmak, bir el hareketini tanımak veya birinin düştüğünü fark etmek gibi.
HAR'ın temeli hareket ve duruş kalıplarında yatar. Bir insanın kollarının veya bacaklarının konumundaki küçük bir değişiklik, çeşitli eylemlere işaret edebilir. HAR sistemleri bu ince ayrıntıları yakalayıp yorumlayarak vücut hareketlerinden anlamlı bilgiler elde edebilir.
Bunu başarmak için, insan eylemi tanıma, vücut hareketlerini analiz etmek ve insan eylemlerini daha yüksek doğrulukla yorumlamak için birlikte çalışan makine öğrenimi, derin öğrenme modelleri, bilgisayar görüşü ve görüntü işleme gibi birden fazla teknolojiyi birleştirir.
Şekil 1. İnsan faaliyetlerinin tanınması bilgisayar bilimlerinin farklı dallarını içerir(Kaynak)
Daha önceki HAR sistemleri çok daha sınırlıydı. Kontrollü ortamlarda yalnızca birkaç basit, tekrarlayan eylemi gerçekleştirebiliyorlardı ve genellikle gerçek dünya koşullarında zorlanıyorlardı.
Günümüzde, yapay zeka ve büyük miktarda video verisi sayesinde HAR, hem doğruluk hem de sağlamlık açısından önemli ölçüde ilerlemiştir. Modern sistemler çok çeşitli faaliyetleri çok daha yüksek doğrulukla tanıyabilir ve bu da teknolojiyi sağlık, güvenlik ve etkileşimli cihazlar gibi alanlar için pratik hale getirir.
İnsan eylemlerini tespit etmek için farklı yöntemler
Artık insan eylemlerini tanımanın ne olduğunu daha iyi anladığımıza göre, makinelerin insan eylemlerini algılayabileceği farklı yollara bir göz atalım.
İşte yaygın yöntemlerden bazıları:
Sensör tabanlı yöntemler: İvmeölçerler, giyilebilir cihazlar ve akıllı telefonlar gibi akıllı cihazlar doğrudan insan vücudundan sinyal yakalayabilir. Yürüme, koşma ve hatta hareketsiz durma gibi hareket modellerini gösterebilirler. Akıllı saat üzerindeki adım sayar bu yönteme harika bir örnektir.
Görme tabanlı yöntemler: Bilgisayar görüşü ile eşleştirilmiş kameralar, vücudun nasıl göründüğünü ve hareket ettiğini kare kare izlemek için görüntüleri ve videoları analiz eder. Bu, daha karmaşık faaliyetlerin tanınmasını sağlar. Hareket kontrollü TV'ler veya oyun sistemleri bu yönteme dayanır.
Multimodal yöntemler: Bir kaynak diğerinin tespit ettiklerini doğrulayabildiğinden, daha güvenilir bir sistem oluşturan sensör ve kameraların bir kombinasyonudur. Örneğin, bir giyilebilir cihaz hareketi kaydederken bir kamera duruşu doğrulayabilir, bu da yaşlı bakımı için düşme tespitinde sıklıkla kullanılan bir kurulumdur.
İnsan faaliyetlerinin tanınmasında veri kümelerinin rolü
Herhangi bir HAR modeli veya sistemi için veri kümeleri başlangıç noktasıdır. HAR veri kümesi, yürüme, oturma veya el sallama gibi eylemleri yakalayan video klipler, görüntüler veya sensör verileri gibi örneklerin bir koleksiyonudur. Bu örnekler, insan hareketindeki kalıpları tanımak için yapay zeka modellerini eğitmek için kullanılır ve daha sonra gerçek hayattaki uygulamalara uygulanabilir.
Eğitim verilerinin kalitesi, bir modelin ne kadar iyi performans gösterdiğini doğrudan etkiler. Temiz ve tutarlı veriler, sistemin eylemleri doğru bir şekilde tanımasını kolaylaştırır.
Bu nedenle veri kümeleri genellikle eğitimden önce ön işlemden geçirilir. Yaygın adımlardan biri, hataları azaltmak ve aşırı uyumu (bir model eğitim verilerinde iyi performans gösterirken yeni verilerle zorlandığında) önlemek için değerleri tutarlı bir şekilde ölçeklendiren normalleştirmedir.
Modellerin eğitimin ötesinde nasıl performans gösterdiğini ölçmek için araştırmacılar, adil test ve karşılaştırmaya olanak tanıyan değerlendirme ölçütlerine ve kıyaslama veri kümelerine güvenirler. UCF101, HMDB51 ve Kinetics gibi popüler koleksiyonlar, insan eylemi tespiti için binlerce etiketli video klip içerir. Sensör tarafında, akıllı telefonlardan ve giyilebilir cihazlardan toplanan veri kümeleri, tanıma modellerini farklı ortamlarda daha sağlam hale getiren değerli hareket sinyalleri sağlar.
Şekil 2. İnsan aktivitesi tanıma veri setine bir bakış.(Kaynak)
Bilgisayarla görme insan faaliyetlerini tanımayı nasıl destekler?
İnsan eylemlerini tespit etmenin farklı yolları arasında bilgisayarla görme, hızla en popüler ve en çok araştırılan yöntemlerden biri haline gelmiştir. En önemli avantajı, zengin ayrıntıları doğrudan görüntülerden ve videolardan çekebilmesidir. Piksellere kare kare bakarak ve hareket modellerini analiz ederek, insanların ekstra cihazlar takmasına gerek kalmadan faaliyetleri gerçek zamanlı olarak tanıyabilir.
Derin öğrenme alanındaki son gelişmeler, özellikle de görüntüleri analiz etmek için tasarlanan konvolüsyonel sinir ağları (CNN'ler), bilgisayarla görmeyi daha hızlı, daha doğru ve daha güvenilir hale getirmiştir.
Örneğin, Ultralytics YOLO11 gibi yaygın olarak kullanılan son teknoloji bilgisayarla görme modelleri bu gelişmeler üzerine inşa edilmiştir. YOLO11, nesne algılama, örnek segmentasyonu, video kareleri boyunca insanları izleme ve insan pozlarını tahmin etme gibi görevleri destekleyerek insan aktivitesi tanıma için harika bir araç haline gelir.
Ultralytics YOLO11'e genel bir bakış
Ultralytics YOLO11, hem hız hem de hassasiyet için tasarlanmış bir Vision AI modelidir. Nesne algılama, nesne izleme ve poz tahmini gibi temel bilgisayarla görme görevlerini destekler. Bu yetenekler özellikle insan aktivitesi tanıma için kullanışlıdır.
Nesne algılama, bir sahnedeki insanları tanımlar ve konumlandırır, izleme, eylem dizilerini tanımak için video kareleri boyunca hareketlerini takip eder ve poz tahmini, benzer aktiviteleri ayırt etmek veya düşme gibi ani değişiklikleri tespit etmek için insan vücudunun temel eklemlerini haritalandırır.
Örneğin, modelden elde edilen bilgiler, bir kişinin sessizce oturması, sonra ayağa kalkması ve son olarak tezahürat yapmak için kollarını kaldırması arasındaki farkı anlamak için kullanılabilir. Bu basit günlük eylemler bir bakışta benzer görünebilir, ancak bir dizi halinde analiz edildiğinde çok farklı anlamlar taşır.
Şekil 3. Poz tahmini için Ultralytics YOLO11 kullanımı.(Kaynak)
Bilgisayarla görme ve HAR'ın gerçek dünya uygulamaları
Daha sonra, bilgisayarlı görü ile desteklenen insan aktivitesi tanımanın günlük hayatımızı etkileyen gerçek dünya kullanım durumlarında nasıl uygulandığına daha yakından bakalım.
Sağlık ve esenlik
Sağlık hizmetlerinde, hareketlerdeki küçük değişiklikler bir kişinin durumu hakkında faydalı bilgiler sağlayabilir. Örneğin, yaşlı bir hastanın tökezlemesi veya rehabilitasyon sırasında bir uzvun açısı riskleri veya ilerlemeyi ortaya çıkarabilir. Bu işaretleri, kontroller gibi geleneksel yöntemlerle gözden kaçırmak genellikle kolaydır.
YOLO11, hastaları gerçek zamanlı olarak izlemek için poz tahmini ve görüntü analizi kullanarak yardımcı olabilir. Düşmeleri tespit etmek, iyileşme egzersizlerini izlemek ve yürüme veya esneme gibi günlük aktiviteleri gözlemlemek için kullanılabilir. Sensörlere veya giyilebilir cihazlara ihtiyaç duymadan görsel analiz yoluyla çalıştığı için, hasta bakımını destekleyen doğru bilgileri toplamanın basit bir yolunu sunar.
Şekil 4. YOLO11'in poz tahmini desteğini kullanarak vücut hareketlerini takip etme.(Kaynak)
Güvenlik ve gözetim
Güvenlik sistemleri, başıboş dolaşan, kısıtlı bir alanda koşan veya ani saldırganlık gösteren biri gibi olağandışı insan faaliyetlerini hızlı bir şekilde tespit etmeye dayanır. Güvenlik görevlilerinin her şeyi manuel olarak izleyemediği yoğun ortamlarda bu işaretler genellikle gözden kaçar. İşte bu noktada bilgisayarla görme ve YOLO11 devreye giriyor.
YOLO11, şüpheli hareketleri tespit edebilen ve anında uyarılar gönderebilen gerçek zamanlı video gözetimine güç vererek güvenlik izlemeyi kolaylaştırır. Kamusal alanlarda kalabalık güvenliğini destekler ve özel alanlarda izinsiz giriş tespitini güçlendirir.
Bu yaklaşımla, güvenlik görevlileri bilgisayar görüş sistemleriyle birlikte çalışabilir ve şüpheli faaliyetlere daha hızlı ve zamanında yanıt verilmesini sağlayan bir insan-bilgisayar etkileşimi ve ortaklığı oluşturabilir.
HAR için bilgisayarla görmeyi kullanmanın artıları ve eksileri
İnsan faaliyetlerini tanımak için bilgisayarla görmeyi kullanmanın avantajlarından bazıları şunlardır:
Ölçeklenebilirlik: Kurulduktan sonra, aynı tanıma sistemi aynı anda birden fazla kişiyi otomatik olarak izleyebilir, bu da onu sağlık tesislerinde, fabrikalarda ve kamusal alanlarda otomasyon için kullanışlı hale getirir.
Gerçek zamanlı işleme:Görsel yapay zeka çözümleri, video akışlarını gerçekleştikleri anda analiz etmek için kullanılabilir ve daha hızlı yanıtlar alınmasını sağlar.
İnvaziv olmayan izleme: Giyilebilir cihazların veya sensörlerin aksine, insanların cihaz taşımasını gerektirmez, doğal ve zahmetsiz davranış analizine olanak tanır.
HAR için bilgisayarla görmeyi kullanmanın birçok faydası olsa da, dikkate alınması gereken sınırlamalar da vardır. İşte akılda tutulması gereken bazı faktörler:
Gizlilik endişeleri: Video tabanlı izleme, özellikle evler veya işyerleri gibi hassas ortamlarda veri koruma ve rıza ile ilgili sorunları gündeme getirebilir.
Potansiyel önyargı: Eğitim veri kümeleri çeşitlilikten yoksunsa, algoritmalar belirli insan grupları için eylemleri yanlış yorumlayabilir, bu da haksız veya yanlış sonuçlara yol açabilir.
Çevresel hassasiyet: Zayıf aydınlatma, arka plan karmaşası veya insanların kısmen gizlenmesi nedeniyle doğruluk düşebilir, bu da sistemlerin dikkatlice tasarlanması gerektiği anlamına gelir.
Önemli çıkarımlar
Yapay zeka ve bilgisayar görüşü, makinelerin insan hareketlerini daha doğru ve gerçek zamanlı olarak tanımasını mümkün kılıyor. Bu sistemler video karelerini ve hareket kalıplarını analiz ederek hem günlük hareketleri hem de ani değişiklikleri tespit edebiliyor. Teknoloji gelişmeye devam ettikçe insan hareketlerini tanıma, araştırma laboratuvarlarının ötesine geçerek sağlık, güvenlik ve günlük uygulamalar için pratik bir araç haline geliyor.