Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Vision AI, dokunmatik olmayan hareket tanıma teknolojisini mümkün kılar.

Bilgisayar görüşünün, çeşitli uygulamalarda el hareketlerini detect, track ve anlama konusunda hareket tanıma teknolojisini nasıl desteklediğini keşfedin.

Teknoloji geliştikçe, teknolojiyle etkileşim şeklimiz de gelişiyor. İlk makineler fiziksel efor ve mekanik kontrollere dayanırken, modern bilgisayar bilimi dokunmatik ekranları ve sesli girişi ortaya çıkardı. 

Şimdi, jest tanıma, doğal hareketleri kullanıcı arayüzü olarak kullanan bir sonraki adımın bir parçasıdır. Basit bir el hareketi, parmakları birleştirme veya hızlı bir el işareti ile uygulamaları, ekranları ve makineleri kontrol etmek artık mümkündür. 

Bu dokunmatik olmayan etkileşim, makinelerin kameranın yakaladığı görüntüleri görmesine ve yorumlamasına yardımcı olan bir yapay zeka dalı olan bilgisayar görüşü ile desteklenebilir. Görüş yapay zeka sistemleri akıllı telefonlara, sanal gerçeklik (VR) ve artırılmış gerçeklik (AR) başlıklarına, arabalara ve akıllı ev cihazlarına entegre edilebilir. Bu sayede, daha sorunsuz bir kullanıcı deneyimi için dokunma, tıklama ve düğmelerin yerine jestler kullanılabilir.

Temassız kontrol, günlük yaşamda giderek daha yaygın hale geliyor. İşyerlerinde ve ortak kullanım alanlarında fiziksel temastan kaçınmak, hijyen ve güvenliği artırabilir. Birçok dijital ürün de eller serbest etkileşime doğru kayıyor ve jestler, cihazlara dokunmadan onları kontrol etmenin kolay ve sezgisel bir yolunu sunuyor.

Bu makalede, jest tanıma nedir, bilgisayar görüşü bunu nasıl daha doğru hale getirir ve gerçek dünya uygulamalarında nerede kullanılır konularını inceleyeceğiz. Hadi başlayalım!

Hareket tanıma nedir?

Hareket tanıma, makinelerin el işaretleri veya vücut hareketleri gibi insan hareketlerini anlamasını ve bunları dijital eylemlere dönüştürmesini sağlayan bir algılama teknolojisidir. Kullanıcılar, ekrana dokunmak veya düğmelere basmak yerine, basit ve doğal hareketlerle cihazları kontrol edebilirler. 

Bu, etkileşimleri daha sezgisel hale getirir ve bu nedenle jest tabanlı giriş, birçok makine öğrenimi ve yapay zeka tabanlı kontrol sisteminde benimsenmektedir. Özellikle el jesti tanıma, en yaygın kullanılan jest tanıma biçimlerinden biridir ve genellikle bilgisayar görüşüne dayanır. 

Basitçe ifade etmek gerekirse, Vision AI çözümü kamera görüntüsünde elleri tespit edebilir, track veya şekil değişikliklerini track ve bu kalıpları bilinen bir harekete eşleştirerek ekranda bir eylemi tetikleyebilir.

Bu çözümlerin önemli bir parçası, farklı el hareketlerini gösteren etiketli görüntü veya videolardan oluşan veri kümeleriyle eğitilen bir bilgisayar görme modelidir. Çeşitli eğitim verileri ve dikkatli değerlendirmelerle model, farklı kullanıcılar, aydınlatma koşulları ve arka planlar arasında daha iyi genelleme yapabilir ve gerçek dünya ortamlarında hareketleri daha güvenilir bir şekilde tanıyabilir.

Şekil 1. detect kilit noktalarını detect için bilgisayar görme modelini eğitmek için kullanılan veriler (Kaynak)

Farklı türdeki jestleri ve insan-bilgisayar etkileşimini keşfetmek

Bilgisayar görüşünün jest tanıma konusunda oynadığı rolü daha yakından incelemeden önce, bir adım geri gidip bu sistemlerin genellikle tanıdığı jest türlerine bir göz atalım.

Çoğu durumda, jestler iki kategoriye ayrılır: statik ve dinamik. Statik jestler, başparmak yukarı, dur işareti veya barış işareti gibi sabit el pozlarıdır. Hareket içermedikleri için, genellikle tek bir görüntü karesinden tanınabilirler.

Öte yandan, dinamik hareketler zaman içindeki hareketleri içerir, örneğin havada el sallama veya kaydırma gibi. Bunları tanımak için, bir Vision AI sistemi birden fazla kareyi analiz etmelidir, böylece elin track hareket ettiğini track edebilir ve hareketin yönünü ve zamanlamasını anlayabilir.

Jest tanımada bilgisayar görme algoritmalarının rolü

Hareket tanıma sistemleri farklı şekillerde oluşturulabilir. Bazı giriş yöntemi sistemleri, el hareketlerini yakalamak için eldivenler veya bileklere takılan izleyiciler gibi giyilebilir sensörler kullanır. 

Bu kurulumlar doğru olabilir, ancak her zaman pratik değildir. Giyilebilir cihazların takılması, kurulması, şarj edilmesi ve bakımı gerekir ve ortak alanlarda veya her gün kullanıldığında kısıtlayıcı hissedilebilirler.

Bu nedenle birçok son teknoloji sistem bilgisayar görüşüne güvenmektedir. Standart RGB kameralar ve derinlik veya uçuş süresi sensörleri ile cihazlar, kullanıcıların ek cihazlar takmasına gerek kalmadan el ve vücut hareketlerini gerçek zamanlı olarak yakalayabilir. Bu, görsel tabanlı hareket tanıma özelliğini akıllı telefonlar, arabalar, akıllı TV'ler ve AR ve VR gözlükleri için ideal hale getirir.

Örneğin, bilgisayar görme modelleri gibi Ultralytics YOLO11 ve yakında çıkacak olan Ultralytics gibi bilgisayar görme modelleri, nesne algılama, nesne izleme ve poz tahmin gibi görevleri destekler. Bu yetenekler, her karede detect , zaman içindeki track ve parmak uçları ve eklemler gibi önemli noktaları haritalamak için kullanılabilir. Bu, AR ve VR'da duraklatmak için avuç içini kaldırma, yakınlaştırmak için parmakları kıstırma, menülerde gezinmek için kaydırma veya bir öğeyi seçmek için işaret etme gibi hareketleri tanımayı mümkün kılar.

İnsan-makine etkileşimi tanıma için kullanılan bilgisayar görme görevleri

İşte jest tanımada kullanılan bazı temel bilgisayar görme görevlerinin genel bir özeti:

  • Nesne algılama: Bu görev, genellikle etraflarına sınırlayıcı kutular çizerek bir görüntü veya video karesindeki elleri bulmak için kullanılır. Sistemin jest alanına odaklanmasına ve gereksiz arka plan ayrıntılarını görmezden gelmesine yardımcı olur.
  • Nesne izleme: Nesne algılamayı temel alan bu görev, algılanan elleri birden fazla karede izler ve zaman içinde kimliklerini korur. Hareket ve yönün çok önemli olduğu dinamik jestler için özellikle yararlıdır.
  • Poz tahmini: Poz tahmini, sınırlayıcı kutulara odaklanmak yerine, parmak uçları, eklemler ve bilek gibi eldeki kilit noktaları belirler. Bu kilit noktalar, parmak pozisyonlarını ve ince hareketleri yakalayan basit bir el iskeleti oluşturur ve daha ayrıntılı jest sınıflandırması sağlar.
  • Örnek segmentasyonu: Bu görev, görünen her el için bir maske oluşturarak her eli piksel düzeyinde arka plandan ayırmayı amaçlamaktadır. Bu, karmaşık sahnelerde, ellerin üst üste geldiği durumlarda veya karede birden fazla elin göründüğü durumlarda yararlıdır.

Birçok Vision AI çözümü, bu görevleri tek bir iş akışının parçası olarak birlikte kullanır. Örneğin, bir sistem önce nesne algılama ile ellerin yerini belirleyebilir, ardından izleme özelliğini kullanarak kareler boyunca ellerin hareketlerini takip edebilir. 

Hareket parmakların konumuna bağlıysa, poz tahmini daha ayrıntılı bilgi için kilit noktalar ekleyebilir, örneklendirme ise karmaşık sahnelerde veya birden fazla elin üst üste geldiği durumlarda her bir eli daha kesin bir şekilde ayırmaya yardımcı olabilir. Bu adımlar birlikte çalışarak hem konum hem de hareket bilgisi sağlar ve hareket tanıma işlemini daha doğru ve güvenilir hale getirir.

Görsel tabanlı hareket tanıma nasıl çalışır?

Artık jest tanıma arkasındaki bilgisayar görme görevlerini daha iyi anladığımıza göre, görme tabanlı bir sistemin nasıl çalıştığını adım adım inceleyelim.

Tipik bir sistem, kameradan video yakalayarak başlar; cihaz destekliyorsa bazen derinlik verileriyle birlikte. Ardından, modellerin tutarlı bir şekilde işlemesi için kareler görüntü işleme kullanılarak önceden işlenir; örneğin yeniden boyutlandırma, sabitleme veya gürültü ve hareket bulanıklığını azaltma gibi işlemler yapılır.

Ardından, sistem algılama veya segmentasyon kullanarak çerçevedeki elleri tanımlar ve izleme özelliği ile zaman içinde bunları takip eder. Uygulama daha ayrıntılı bilgilere ihtiyaç duyarsa, parmak uçları ve eklemler gibi kilit noktaları çıkarmak için poz tahmini de yapabilir. Model, bu bilgileri kullanarak jesti sınıflandırır; ister başparmak yukarı gibi tek bir kare poz olsun, ister kaydırma gibi bir hareket modeli olsun.

Son olarak, tanınan hareket arayüzdeki bir eyleme eşleştirilir; örneğin kaydırma, yakınlaştırma, bir öğeyi seçme, ses seviyesini ayarlama veya AR ve VR etkileşimlerini kontrol etme gibi. Kesin işlem süreci değişebilir; daha basit uygulamalar daha az adım kullanırken, daha karmaşık uygulamalar daha iyi doğruluk için algılama, izleme ve poz tahminini birleştirir.

Görüntü tabanlı jest tanıma uygulamaları

Şimdi, el pozisyonlarını anlamak için gerçek dünya uygulamalarında jest tanıma teknolojisinin nasıl kullanıldığını inceleyelim.

Araç bilgi-eğlence sistemleriyle jest tabanlı etkileşim

Hareket tanıma, akıllı araç arayüzlerinde, özellikle bilgi-eğlence sistemlerinde kullanılmaya başlanmıştır. Basit el hareketleriyle belirli özellikleri kontrol etmenin kolay bir yoludur ve sürücülerin dokunmatik ekranlara veya fiziksel düğmelere uzanma sıklığını azaltabilir. Örneğin, hızlı bir hareketle ses seviyesini ayarlayabilir, aramaları yönetebilir veya ekran menülerinde gezinebilirsiniz. 

Şekil 2. Bir sürücü, bilgi-eğlence sisteminin algılama aralığında el hareketleri yapıyor (Kaynak)

Oyunlarda hareketle kontrol edilen etkileşimler

Oyun ve sürükleyici deneyimlerde, hareket tabanlı kontrol, insanların sanal dünyalarla etkileşim kurma şeklini değiştiriyor. Oyuncular, yalnızca kontrol cihazlarına veya joysticklere güvenmek yerine, doğal el hareketlerini kullanarak menülerde gezinebilir, sanal nesneleri alabilir, karakterleri kontrol edebilir veya oyunda eylemleri tetikleyebilir.

Şekil 3. El hareketleriyle oyun oynamak (Kaynak).

Bu tür dokunmatik olmayan etkileşim, özellikle AR ve VR'da daha akıcı hissedilebilir. Sonuç olarak, el izleme ve hareket kontrolü, VR ve karma gerçeklik başlıklarında yaygın özellikler haline gelmektedir.

Akıllı ev cihazları için kesintisiz hareket kontrolü

Akıllı TV'ler, hoparlörler ve bağlantılı ışıklar gibi akıllı ev cihazları, hızlı ve dokunmadan yapılan işlemler için hareket tabanlı kontrolü desteklemeye başlıyor. Kullanıcılar, basit bir el hareketi ile ışıkları açabilir, ses seviyesini ayarlayabilir veya anahtar veya uzaktan kumandaya dokunmadan temel komutları çalıştırabilir.

Örneğin, ev eğlence sistemlerinde, yerleşik veya bağlı derinlik kameraları, kaydırma, işaret etme veya el kaldırma gibi hareketleri tanıyabilir. Bu, menüleri taramayı, ayarları değiştirmeyi veya odanın diğer ucundan seçimleri onaylamayı kolaylaştırabilir. Arka planda, bilgisayar görme modelleri kamera görüntülerini gerçek zamanlı olarak işleyerek bu hareketleri detect yorumlar. 

Robotik alanında yapay zeka destekli hareket kontrolü 

Bir fabrikada, bir işçinin parçaları taşırken, eldiven giyerken veya hareketli ekipmandan güvenli bir mesafede dururken bir robotu yönlendirmesi gereken bir durumu düşünün. Bu tür ortamlarda, düğmelere veya kontrol paneline uzanmak yavaş ve hatta tehlikeli olabilir. 

Buna karşılık, hareket tabanlı kontrol sistemleri, bu makinelerle etkileşim kurmak için daha pratik ve eller serbest bir yol olabilir. Bu, insanlarla birlikte çalışmak üzere tasarlanmış işbirlikçi robotlar veya cobotlar için özellikle yararlıdır. 

Operatörler, kontrol paneline yaklaşmak yerine basit el işaretleri kullanarak robotu uzaktan başlatabilir, durdurabilir veya yönlendirebilir. Bu, fiziksel kontrollere olan bağımlılığı azaltır ve üretim sahasında daha güvenli iş akışlarını destekleyebilir.

Derin öğrenme modelleri veya öğrenme algoritmalarıyla mümkün hale gelen gelişmiş görme tabanlı kontrol sistemleri de temel komutların ötesine geçebilir. Daha ince el hareketlerini yorumlayabilir ve küçük yön değişikliklerine ve daha hassas yönlendirme ve otomasyona sorunsuz bir şekilde yanıt verebilirler. 

Şekil 4. Kullanıcının hareketini analiz eden robotik el (Kaynak)

Hareket tanıma teknolojisinin artıları ve eksileri

İşte jest tanıma teknolojisini kullanmanın bazı önemli avantajları:

  • Geliştirilmiş erişilebilirlik: Hareketler, klavye, dokunmatik ekran veya kontrol cihazlarını kullanmakta zorlanan kullanıcılar için alternatif bir seçenek sunabilir.
  • Uzaktan çalışır: Hareketler odanın diğer ucundan tanınabilir, bu da akıllı TV'ler, kiosklar ve ev cihazları için yararlıdır.
  • Cihazlar arasında esnek: Benzer hareket setleri telefonlar, arabalar, akıllı ekranlar ve AR veya VR başlıklarında çalışabilir, böylece etkileşim tutarlı hale gelir.

Aynı zamanda, doğruluk ve tutarlılığı etkileyebilecek birkaç gerçek dünya zorluğu da vardır. Dikkate alınması gereken bazı faktörler şunlardır:

  • Aydınlatma ve kamera kalitesi sorunları: Düşük ışık, parlama, gölgeler veya düşük çözünürlüklü kameralar tanıma performansını düşürebilir. Bu da hareket kontrolünü etkileyebilir.
  • Kullanıcılar arasında farklılıklar: İnsanlar doğal olarak farklı hareketler yaparlar ve el büyüklüğü, parmak esnekliği veya aksesuarlar gibi farklılıklar doğruluğu etkileyebilir.
  • Hızlı hareket sınırlamaları: Hızlı hareketler, özellikle düşük kare hızına sahip kameralarda hareket bulanıklığına neden olabilir veya modelin önemli kareleri kaçırmasına yol açabilir.

Önemli çıkarımlar

Hareket tanıma teknolojisi araştırma laboratuvarlarının ötesine geçerek artık günlük cihazların ve yeniliklerin bir parçası haline gelmiştir. Özellikle bilgisayar görüşü, oyun, robotik, akıllı evler ve otomotiv sistemlerinde dokunmadan kontrol imkanı sunmaktadır. Görüş modelleri geliştikçe, bu dokunmadan kontrol arayüzlerinin yapımı daha kolay hale gelecek ve daha yaygın olarak kullanılacaktır.

Bilgisayar görme modelleri hakkında daha fazla bilgi edinmek için topluluğumuzu ve GitHub depomuzu keşfedin. Tarımda yapay zeka ve lojistikte bilgisayar görme gibi uygulamalar hakkında bilgi almak için çözüm sayfalarımızı inceleyin. Lisans seçeneklerimizi kontrol edin ve kendi Vision AI modelinizi oluşturmaya başlayın.

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın