"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Fitness uygulamalarından hasta takibine kadar, bilgisayarlı görü şu soruyu nasıl ele alıyor: Yapay zeka gerçek dünya ortamlarında insan eylemlerini tespit edebilir mi?
Günlük yaşam, hakkında düşünmek için nadiren durduğumuz küçük hareketlerle doludur. Bir odada yürümek, bir masada oturmak veya bir arkadaşa el sallamak bize zahmetsiz gelebilir, ancak bunları yapay zeka ile tespit etmek çok daha karmaşıktır. İnsanlara doğal gelen şey, bir makine onu anlamaya çalıştığında çok daha karmaşık bir şeye dönüşür.
Bu yetenek, insan aktivitesi tanıma (HAR) olarak bilinir ve bilgisayarların insan davranışındaki kalıpları algılamasını ve yorumlamasını sağlar. Bir fitness uygulaması, HAR'ın iş başındaki harika bir örneğidir. Adımları ve egzersiz rutinlerini izleyerek, yapay zekanın günlük aktiviteleri nasıl izleyebileceğini gösterir.
İnsan eylemi tanımanın potansiyelini gören birçok endüstri bu teknolojiyi benimsemeye başladı. Aslında, insan eylem tanıma pazarının 2033 yılına kadar 12,56 milyar doların üzerine çıkması bekleniyor.
Bu ilerlemenin önemli bir kısmı, makinelerin görüntüler ve videolar gibi görsel verileri analiz etmesini sağlayan bir yapay zeka dalı olan bilgisayarlı görü tarafından yönlendiriliyor. Bilgisayarlı görü ve görüntü tanıma ile HAR, bir araştırma konseptinden, son teknoloji yapay zeka uygulamalarının pratik ve heyecan verici bir parçası haline geldi.
Bu makalede, HAR'ın ne olduğunu, insan eylemlerini tanımak için kullanılan farklı yöntemleri ve bilgisayar görüşünün şu soruyu nasıl yanıtlamaya yardımcı olduğunu inceleyeceğiz: Yapay zeka, gerçek dünya uygulamalarında insan eylemlerini tespit edebilir mi? Hadi başlayalım!
İnsan eylemi tanıma (human action recognition) nedir?
İnsan eylemi tanıma, bilgisayar sistemlerinin vücut hareketlerini analiz ederek insan aktivitelerini veya eylemlerini anlamasını mümkün kılar. Sadece bir görüntüde bir kişiyi tespit etmekten farklı olarak, HAR kişinin ne yaptığını belirlemeye yardımcı olabilir. Örneğin, yürüme ve koşma arasında ayrım yapmak, bir el sallamayı tanımak veya birinin düştüğünü fark etmek.
HAR'ın temeli, hareket ve duruş kalıplarında yatmaktadır. Bir insanın kollarının veya bacaklarının konumlandırılma şeklinde hafif bir değişiklik, çeşitli eylemleri işaret edebilir. HAR sistemleri, bu ince ayrıntıları yakalayıp yorumlayarak, vücut hareketlerinden anlamlı bilgiler elde edebilir.
Bunu başarmak için, insan eylemi tanıma, vücut hareketlerini analiz etmek ve insan eylemlerini daha yüksek doğrulukla yorumlamak için birlikte çalışan makine öğrenimi, derin öğrenme modelleri, bilgisayarlı görü ve görüntü işleme gibi birden fazla teknolojiyi birleştirir.
Şekil 1. İnsan aktivitesi tanıma, bilgisayar biliminin farklı dallarını içerir (Kaynak)
Önceki HAR sistemleri çok daha sınırlıydı. Kontrollü ortamlarda yalnızca birkaç basit, tekrarlayan eylemi gerçekleştirebiliyorlardı ve genellikle gerçek dünya durumlarında zorlanıyorlardı.
Günümüzde, yapay zeka ve büyük miktarlardaki video verileri sayesinde, İHA hem doğruluk hem de sağlamlık açısından önemli ölçüde ilerleme kaydetmiştir. Modern sistemler, çok daha yüksek doğrulukla geniş bir aktivite yelpazesini tanıyabilir, bu da teknolojiyi sağlık hizmetleri, güvenlik ve etkileşimli cihazlar gibi alanlar için pratik hale getirir.
İnsan eylemlerini tespit etme yöntemleri
İnsan eylemi tanımının ne olduğunu daha iyi anladığımıza göre, makinelerin insan eylemlerini algılayabileceği farklı yollara bir göz atalım.
İşte yaygın yöntemlerden bazıları:
Sensor-based methods (Sensör tabanlı yöntemler): İvmeölçerler, giyilebilir cihazlar ve akıllı telefonlar gibi akıllı cihazlar, sinyalleri doğrudan insan vücudundan yakalayabilir. Yürüme, koşma ve hatta hareketsiz durma gibi hareket kalıplarını gösterebilirler. Bir akıllı saatteki adım sayacı, bu yöntemin harika bir örneğidir.
Görüntü tabanlı yöntemler: Bilgisayarlı görü ile eşleştirilmiş kameralar, vücudun nasıl göründüğünü ve kare kare nasıl hareket ettiğini izlemek için görüntüleri ve videoları analiz eder. Bu, daha karmaşık aktivitelerin tanınmasını sağlar. Jest kontrollü TV'ler veya oyun sistemleri bu yönteme dayanır.
Çok modlu yöntemler: Bir kaynağın diğerinin neyi algıladığını doğrulayabildiği için, sensörlerin ve kameraların birleşimi daha güvenilir bir sistem oluşturur. Örneğin, giyilebilir bir cihaz hareketi kaydedebilirken, bir kamera duruşu doğrulayabilir; bu kurulum genellikle yaşlı bakımı için düşme tespitinde kullanılır.
İnsan aktivitesi tanımada veri kümelerinin rolü
Herhangi bir HAR modeli veya sistemi için veri kümeleri başlangıç noktasıdır. Bir HAR veri kümesi, yürüme, oturma veya el sallama gibi eylemleri yakalayan video klipleri, görüntüler veya sensör verileri gibi örneklerden oluşan bir koleksiyondur. Bu örnekler, insan hareketindeki kalıpları tanımak için yapay zeka modellerini eğitmek için kullanılır ve bu da gerçek hayattaki uygulamalarda uygulanabilir.
Eğitim verilerinin kalitesi, bir modelin ne kadar iyi performans gösterdiğini doğrudan etkiler. Temiz ve tutarlı veriler, sistemin eylemleri doğru bir şekilde tanımasını kolaylaştırır.
Bu nedenle veri kümeleri genellikle eğitimden önce önceden işlenir. Yaygın bir adım, değerleri tutarlı bir şekilde ölçeklendirerek hataları azaltan ve aşırı öğrenmeyi (bir modelin eğitim verilerinde iyi performans göstermesi ancak yeni verilerle mücadele etmesi) önleyen normalleştirmedir.
Modellerin eğitim dışındaki performansını ölçmek için araştırmacılar, adil test ve karşılaştırmaya olanak tanıyan değerlendirme metriklerine ve kıyaslama veri kümelerine güvenirler. UCF101, HMDB51 ve Kinetics gibi popüler koleksiyonlar, insan eylemi tespiti için binlerce etiketli video klip içerir. Sensör tarafında ise akıllı telefonlardan ve giyilebilir cihazlardan toplanan veri kümeleri, farklı ortamlarda tanıma modellerini daha sağlam hale getiren değerli hareket sinyalleri sağlar.
Şekil 2. Bir insan aktivitesi tanıma veri kümesine bir bakış. (Kaynak)
Bilgisayarlı görü, insan aktivitesi tanımayı nasıl destekler?
İnsan eylemlerini tespit etmenin farklı yolları arasında, bilgisayarlı görü hızla en popüler ve yaygın olarak araştırılanlardan biri haline geldi. Temel avantajı, doğrudan resimlerden ve videolardan zengin ayrıntılar çekebilmesidir. Piksellere kare kare bakıp hareket örüntülerini analiz ederek, insanların ek cihazlar takmasına gerek kalmadan etkinlikleri gerçek zamanlı olarak tanıyabilir.
Derin öğrenmedeki son gelişmeler, özellikle görüntüleri analiz etmek için tasarlanmış evrişimli sinir ağları (CNN'ler), bilgisayarlı görüyü daha hızlı, daha doğru ve daha güvenilir hale getirdi.
Örneğin, Ultralytics YOLO11 gibi yaygın olarak kullanılan son teknoloji bilgisayarlı görü modelleri bu gelişmeler üzerine inşa edilmiştir. YOLO11, nesne tespiti, örnek segmentasyonu, video kareleri boyunca insanları izleme ve insan pozlarını tahmin etme gibi görevleri destekleyerek, insan aktivitesi tanıma için harika bir araçtır.
Ultralytics YOLO11'e genel bakış
Ultralytics YOLO11, hem hız hem de hassasiyet için tasarlanmış bir Vision AI modelidir. Nesne tespiti, nesne takibi ve poz tahmini gibi temel bilgisayarlı görü görevlerini destekler. Bu yetenekler, özellikle insan aktivitesi tanıma için kullanışlıdır.
Nesne algılama, bir sahnede insanları tanımlar ve konumlandırır, izleme ise eylem dizilerini tanımak için video kareleri boyunca hareketlerini takip eder ve poz tahmini, benzer aktiviteleri ayırt etmek veya düşme gibi ani değişiklikleri tespit etmek için temel insan vücudu eklemlerini haritalandırır.
Örneğin, modelden elde edilen içgörüler, sessizce oturan, ardından ayağa kalkan ve son olarak kollarını tezahürat yapmak için kaldıran biri arasındaki farkı anlamak için kullanılabilir. Bu basit günlük eylemler ilk bakışta benzer görünebilir, ancak bir dizide analiz edildiğinde çok farklı anlamlar taşır.
Şekil 3. Poz tahmini için Ultralytics YOLO11 kullanmak. (Kaynak)
Bilgisayarlı görü ve HAR'ın gerçek dünya uygulamaları
Şimdi de bilgisayarla görme destekli insan aktivite tanımının günlük hayatımızı etkileyen gerçek dünya kullanım durumlarında nasıl uygulandığına daha yakından bakalım.
Sağlık hizmetleri ve esenlik
Sağlık hizmetlerinde, hareketteki küçük değişiklikler bir kişinin durumu hakkında faydalı bilgiler sağlayabilir. Örneğin, yaşlı bir hastanın tökezlemesi veya rehabilitasyon sırasında bir uzvun açısı riskleri veya ilerlemeyi ortaya çıkarabilir. Bu işaretleri geleneksel yöntemlerle, örneğin kontrollerle kaçırmak genellikle kolaydır.
YOLO11, duruş tahmini ve görüntü analizi kullanarak hastaları gerçek zamanlı olarak izlemeye yardımcı olabilir. Düşmeleri tespit etmek, iyileşme egzersizlerini takip etmek ve yürüme veya gerinme gibi günlük aktiviteleri gözlemlemek için kullanılabilir. Sensörlere veya giyilebilir cihazlara ihtiyaç duymadan görsel analiz yoluyla çalıştığı için, hasta bakımını destekleyen doğru bilgileri toplamanın basit bir yolunu sunar.
Şekil 4. YOLO11'in poz tahmini desteği kullanılarak vücut hareketlerinin izlenmesi. (Kaynak)
Güvenlik ve gözetim
Güvenlik sistemleri, birinin oyalanması, kısıtlı bir alanda koşması veya ani saldırganlık göstermesi gibi olağandışı insan faaliyetlerini hızlı bir şekilde tespit etmeye dayanır. Bu işaretler genellikle güvenlik görevlilerinin her şeyi manuel olarak izleyemediği yoğun ortamlarda kaçırılır. İşte burada bilgisayar görüşü ve YOLO11 devreye giriyor.
YOLO11, şüpheli hareketleri tespit edebilen ve anında uyarılar gönderebilen gerçek zamanlı video gözetimini destekleyerek güvenlik izlemeyi kolaylaştırır. Kamusal alanlarda kalabalık güvenliğini destekler ve özel alanlarda izinsiz giriş tespitini güçlendirir.
Bu yaklaşımla, güvenlik görevlileri bilgisayar görüşü sistemleriyle birlikte çalışarak, şüpheli faaliyetlere daha hızlı ve zamanında yanıt verilmesini sağlayan bir insan-bilgisayar etkileşimi ve ortaklığı oluşturabilir.
HAR için bilgisayar görüşü kullanmanın artıları ve eksileri
İnsan aktivitesi tanıma için bilgisayar görüşü kullanmanın bazı avantajları şunlardır:
Ölçeklenebilirlik: Kurulduktan sonra, aynı tanıma sistemi aynı anda birden fazla kişiyi otomatik olarak izleyebilir ve bu da onu sağlık tesislerinde, fabrikalarda ve kamusal alanlarda otomasyon için kullanışlı hale getirir.
Gerçek zamanlı işleme:Görüntü işleme yapay zeka çözümleri, video akışlarını gerçekleşirken analiz etmek için kullanılabilir ve daha hızlı yanıtlar sağlar.
Non-invaziv izleme: Giyilebilir cihazlar veya sensörlerin aksine, insanların cihaz taşımasını gerektirmez, bu da doğal ve zahmetsiz davranış analizine olanak tanır.
HAR için bilgisayarla görme kullanmanın birçok faydası olmasına rağmen, dikkate alınması gereken sınırlamalar da vardır. İşte akılda tutulması gereken bazı faktörler:
Gizlilik endişeleri: Video tabanlı izleme, özellikle evler veya işyerleri gibi hassas ortamlarda veri koruma ve onay konularında sorunlar yaratabilir.
Olası önyargı: Eğitim veri kümelerinde çeşitlilik yoksa, algoritmalar belirli insan grupları için eylemleri yanlış yorumlayabilir ve bu da adil olmayan veya yanlış sonuçlara yol açabilir.
Çevresel hassasiyet: Zayıf aydınlatma, arka plan karmaşası veya insanların kısmen gizlenmesi nedeniyle doğruluk düşebilir, bu da sistemlerin dikkatlice tasarlanması gerektiği anlamına gelir.
Önemli çıkarımlar
Yapay zeka ve bilgisayarlı görü, makinelerin insan eylemlerini daha doğru ve gerçek zamanlı olarak tanımasını mümkün kılıyor. Video karelerini ve hareket kalıplarını analiz ederek, bu sistemler hem günlük hareketleri hem de ani değişiklikleri belirleyebilir. Teknoloji gelişmeye devam ettikçe, insan aktivitesi tanıma araştırma laboratuvarlarının ötesine geçiyor ve sağlık hizmetleri, güvenlik ve günlük uygulamalar için pratik bir araç haline geliyor.