Yolo فيجن شنتشن
شنتشن
انضم الآن

تقنية الرؤية الاصطناعية تتيح تقنية التعرف على الإيماءات بدون لمس

اكتشف كيف تعمل الرؤية الحاسوبية على تعزيز تقنية التعرف على الإيماءات من أجل detect إيماءات اليد track وفهمها عبر مختلف التطبيقات.

مع تطور التكنولوجيا، تتطور طريقة تفاعلنا معها أيضًا. كانت الآلات القديمة تعتمد على الجهد البدني وأدوات التحكم الميكانيكية، بينما أدخلت علوم الكمبيوتر الحديثة شاشات اللمس والإدخال الصوتي. 

الآن، أصبح التعرف على الإيماءات جزءًا من الخطوة التالية، باستخدام الحركات الطبيعية كواجهة مستخدم. يمكن الآن التحكم في التطبيقات والشاشات والأجهزة بمجرد إيماءة بسيطة أو ضغطة أو إشارة سريعة باليد. 

يمكن تشغيل هذا التفاعل بدون لمس بواسطة الرؤية الحاسوبية، وهي أحد فروع الذكاء الاصطناعي التي تساعد الآلات على رؤية وتفسير ما تلتقطه الكاميرا. يمكن دمج أنظمة الرؤية الاصطناعية في الهواتف الذكية وسماعات الواقع الافتراضي (VR) والواقع المعزز (AR) والسيارات والأجهزة المنزلية الذكية، حيث يمكن أن تحل الإيماءات محل النقرات والضغطات والأزرار لتوفير تجربة مستخدم أكثر سلاسة.

أصبح التحكم بدون لمس أكثر شيوعًا في الحياة اليومية. في أماكن العمل والمساحات المشتركة، يمكن أن يؤدي تجنب الاتصال الجسدي إلى تحسين النظافة والسلامة. كما تتجه العديد من المنتجات الرقمية نحو التفاعل بدون استخدام اليدين، وتوفر الإيماءات طريقة سهلة وبديهية للتحكم في الأجهزة دون لمسها.

في هذه المقالة، سوف نستكشف ما هو التعرف على الإيماءات، وكيف تجعل الرؤية الحاسوبية هذا التعرف أكثر دقة، وأين يتم استخدامه في التطبيقات الواقعية. هيا بنا نبدأ!

ما هو التعرف على الإيماءات؟

التعرف على الإيماءات هو تقنية استشعار تتيح للأجهزة فهم إيماءات الإنسان، مثل إشارات اليد أو حركات الجسم، وتحويلها إلى إجراءات رقمية. بدلاً من النقر على الشاشة أو الضغط على الأزرار، يمكن للمستخدمين التحكم في الأجهزة من خلال حركات بسيطة وطبيعية. 

وهذا يجعل التفاعلات أكثر سهولة، ولهذا السبب يتم اعتماد الإدخال القائم على الإيماءات في العديد من أنظمة التحكم القائمة على التعلم الآلي والذكاء الاصطناعي. وعلى وجه الخصوص، يعد التعرف على إيماءات اليد أحد أكثر أشكال التعرف على الإيماءات استخدامًا، وغالبًا ما يعتمد على الرؤية الحاسوبية. 

ببساطة، يمكن لحل Vision AI اكتشاف الأيدي في بث الكاميرا، track تحركها أو تغير شكلها، ومطابقة تلك الأنماط مع إيماءة معروفة لتشغيل إجراء على الشاشة.

جزء أساسي من هذه الحلول هو نموذج الرؤية الحاسوبية، الذي يتم تدريبه على مجموعات بيانات من الصور أو مقاطع الفيديو الموسومة التي تعرض إيماءات يدوية مختلفة. بفضل بيانات التدريب المتنوعة والتقييم الدقيق، يمكن للنموذج التعميم بشكل أفضل عبر مختلف المستخدمين وظروف الإضاءة والخلفيات، مما يساعده على التعرف على الإيماءات بشكل أكثر موثوقية في بيئات العالم الحقيقي.

الشكل 1. البيانات المستخدمة لتدريب نموذج الرؤية الحاسوبية على detect نقاط detect الرئيسية (المصدر)

استكشاف أنواع مختلفة من الإيماءات والتفاعل بين الإنسان والحاسوب

قبل أن نلقي نظرة فاحصة على الدور الذي تلعبه الرؤية الحاسوبية في التعرف على الإيماءات، دعونا نرجع خطوة إلى الوراء ونلقي نظرة على أنواع الإيماءات التي تتعرف عليها هذه الأنظمة عادةً.

في معظم الحالات، تنقسم الإيماءات إلى فئتين: ثابتة وديناميكية. الإيماءات الثابتة هي أوضاع ثابتة لليد، مثل الإبهام لأعلى، أو إشارة التوقف، أو إشارة السلام. ونظرًا لأنها لا تتضمن حركة، فغالبًا ما يمكن التعرف عليها من إطار صورة واحد.

في المقابل، تتضمن الإيماءات الديناميكية حركة زمنية، مثل التلويح أو التمرير في الهواء. للتعرف عليها، يحتاج نظام الذكاء الاصطناعي البصري إلى تحليل إطارات متعددة حتى يتمكن من track اليد وفهم اتجاه الإيماءة وتوقيتها.

دور خوارزميات الرؤية الحاسوبية في التعرف على الإيماءات

يمكن بناء أنظمة التعرف على الإيماءات بطرق مختلفة. تستخدم بعض أنظمة طرق الإدخال أجهزة استشعار قابلة للارتداء، مثل القفازات أو أجهزة التتبع المثبتة على المعصم، لالتقاط حركة اليد. 

قد تكون هذه الإعدادات دقيقة، ولكنها ليست دائماً عملية. يجب ارتداء الأجهزة القابلة للارتداء وإعدادها وشحنها وصيانتها، وقد تشعر بأنها مقيدة في الأماكن المشتركة أو عند استخدامها يومياً.

لهذا السبب تعتمد العديد من الأنظمة المتطورة على الرؤية الحاسوبية بدلاً من ذلك. باستخدام كاميرات RGB قياسية ومستشعرات العمق أو زمن الطيران، يمكن للأجهزة التقاط حركات اليد والجسم في الوقت الفعلي دون الحاجة إلى ارتداء أجهزة إضافية. وهذا يجعل التعرف على الإيماءات القائم على الرؤية مناسبًا تمامًا للهواتف الذكية والسيارات وأجهزة التلفزيون الذكية وسماعات الرأس AR و VR.

على سبيل المثال، نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 و Ultralytics القادم تدعم مهام مثل اكتشاف الكائنات وتتبعها وتقدير وضعها. يمكن استخدام هذه القدرات detect في كل إطار track بمرور الوقت وتعيين النقاط الرئيسية مثل أطراف الأصابع والمفاصل. وهذا يجعل من الممكن التعرف على الإيماءات مثل رفع راحة اليد للتوقف المؤقت، والقرص للتكبير، والتمرير للتنقل بين القوائم، أو الإشارة لاختيار عنصر في الواقع المعزز والواقع الافتراضي.

مهام الرؤية الحاسوبية المستخدمة للتعرف على التفاعل بين الإنسان والآلة

فيما يلي نظرة عامة على بعض المهام الرئيسية للرؤية الحاسوبية المستخدمة في التعرف على الإيماءات:

  • كشف الأجسام: تُستخدم هذه المهمة لتحديد موقع اليدين في صورة أو إطار فيديو، وعادةً ما يتم ذلك عن طريق رسم مربعات تحيط بهما. تساعد هذه المهمة النظام على التركيز على منطقة الإيماءات وتجاهل تفاصيل الخلفية غير الضرورية.
  • تتبع الكائنات: بناءً على اكتشاف الكائنات، تتعقب هذه المهمة الأيدي المكتشفة عبر إطارات متعددة وتحافظ على هويتها بمرور الوقت. وهي مفيدة بشكل خاص للإيماءات الديناميكية، حيث تعتبر الحركة والاتجاه أمرين بالغي الأهمية.
  • تقدير الوضع: بدلاً من التركيز على المربعات المحيطة، يحدد تقدير الوضع النقاط الرئيسية على اليد، مثل أطراف الأصابع والمفاصل والمعصم. تشكل هذه المعالم هيكلاً بسيطاً لليد يلتقط مواقع الأصابع والحركات الدقيقة، مما يتيح تصنيف الإيماءات بشكل أكثر تفصيلاً.
  • تقسيم الحالات: تهدف هذه المهمة إلى فصل كل يد عن الخلفية على مستوى البكسل عن طريق إنشاء قناع لكل يد مرئية. وهي مفيدة في المشاهد المزدحمة، عندما تتداخل الأيدي، أو عندما تظهر أيدي متعددة في الإطار.

تستخدم العديد من حلول Vision AI هذه المهام معًا كجزء من مسار واحد. على سبيل المثال، قد يبدأ النظام بالكشف عن الأجسام للعثور على اليدين، ثم يستخدم التتبع لمتابعتها عبر الإطارات للحصول على إيماءات ديناميكية. 

إذا كانت الإيماءة تعتمد على وضع الأصابع، يمكن أن يضيف تقدير الوضع نقاطًا رئيسية للحصول على تفاصيل أدق، بينما يمكن أن تساعد تجزئة الحالات في عزل كل يد بشكل أكثر دقة في المشاهد المزدحمة أو عندما تتداخل عدة أيدي. تعمل هذه الخطوات معًا على توفير معلومات عن الموقع والحركة، مما يجعل التعرف على الإيماءات أكثر دقة وموثوقية.

كيف يعمل التعرف على الإيماءات القائم على الرؤية

الآن بعد أن أصبح لدينا فهم أفضل لمهام الرؤية الحاسوبية الكامنة وراء التعرف على الإيماءات، دعونا نلقي نظرة تفصيلية على كيفية عمل النظام القائم على الرؤية.

يبدأ النظام النموذجي بالتقاط الفيديو من الكاميرا، وأحيانًا مع بيانات العمق إذا كان الجهاز يدعم ذلك. ثم تتم معالجة الإطارات مسبقًا باستخدام معالجة الصور لتسهيل معالجتها بشكل متسق في النموذج، مثل تغيير الحجم أو التثبيت أو تقليل الضوضاء وضبابية الحركة.

بعد ذلك، يحدد النظام الأيدي الموجودة في الإطار باستخدام الكشف أو التجزئة ويتتبعها بمرور الوقت باستخدام التتبع. إذا احتاج التطبيق إلى تفاصيل أدق، فقد يقوم أيضًا بتشغيل تقدير الوضع لاستخراج النقاط الرئيسية مثل أطراف الأصابع والمفاصل. باستخدام هذه المعلومات، يصنف النموذج الإيماءة، سواء كانت وضعًا في إطار واحد مثل الإبهام لأعلى أو نمط حركة مثل التمرير.

أخيرًا، يتم ربط الإيماءة المعترف بها بإجراء في الواجهة، مثل التمرير أو التكبير أو تحديد عنصر أو ضبط مستوى الصوت أو التحكم في تفاعلات الواقع المعزز والواقع الافتراضي. قد يختلف المسار الدقيق، حيث تستخدم التطبيقات الأبسط خطوات أقل، بينما تجمع التطبيقات الأكثر تعقيدًا بين الكشف والتتبع وتقدير الوضع لتحقيق دقة أفضل.

تطبيقات التعرف على الإيماءات القائمة على الرؤية

بعد ذلك، دعونا نستعرض كيفية استخدام التعرف على الإيماءات في التطبيقات الواقعية لفهم أوضاع اليدين.

التفاعل القائم على الإيماءات مع أنظمة المعلومات والترفيه في السيارات

بدأ التعرف على الإيماءات في الظهور في واجهات المركبات الذكية، خاصة في أنظمة المعلومات والترفيه. وهي طريقة مريحة للتحكم في بعض الميزات بحركات بسيطة باليد، مما يقلل من عدد المرات التي يحتاج فيها السائقون إلى لمس الشاشات التي تعمل باللمس أو الأزرار المادية. على سبيل المثال، يمكن استخدام إيماءة سريعة لضبط مستوى الصوت أو إدارة المكالمات أو التنقل عبر القوائم التي تظهر على الشاشة. 

الشكل 2. سائق يقوم بإيماءات يدوية في نطاق الكشف لنظام المعلومات والترفيه (المصدر)

التفاعلات التي تعتمد على الإيماءات في الألعاب

في الألعاب والتجارب الغامرة، يغير التحكم القائم على الإيماءات طريقة تفاعل الناس مع العوالم الافتراضية. بدلاً من الاعتماد فقط على أجهزة التحكم أو عصا التحكم، يمكن للاعبين استخدام حركات اليد الطبيعية للتنقل بين القوائم، والتقاط الأشياء الافتراضية، والتحكم في الشخصيات، أو تشغيل الإجراءات في اللعبة.

الشكل 3. لعب الألعاب باستخدام إيماءات اليد (المصدر).

يمكن أن يكون هذا النوع من التفاعل بدون لمس أكثر سلاسة، خاصة في الواقع المعزز والواقع الافتراضي. ونتيجة لذلك، أصبح تتبع اليد والتحكم بالإيماءات من الميزات الشائعة في سماعات الواقع الافتراضي والواقع المختلط.

تحكم سلس بالإيماءات للأجهزة المنزلية الذكية

بدأت الأجهزة المنزلية الذكية مثل التلفزيونات الذكية ومكبرات الصوت والمصابيح المتصلة في دعم التحكم القائم على الإيماءات من أجل إجراء عمليات سريعة بدون لمس. بحركة بسيطة من اليد، يمكن للمستخدمين تشغيل المصابيح أو ضبط مستوى الصوت أو تشغيل الأوامر الأساسية دون الحاجة إلى استخدام المفاتيح أو أجهزة التحكم عن بُعد.

على سبيل المثال، في أجهزة الترفيه المنزلي، يمكن للكاميرات العميقة المدمجة أو المتصلة التعرف على الإيماءات مثل التمرير أو الإشارة أو رفع اليد. وهذا يسهل تصفح القوائم أو تغيير الإعدادات أو تأكيد الاختيارات من أي مكان في الغرفة. وفي الخلفية، تعالج نماذج الرؤية الحاسوبية بث الكاميرا في الوقت الفعلي detect هذه الإيماءات detect . 

التحكم بالإيماءات المدعوم بالذكاء الاصطناعي في مجال الروبوتات 

تخيل موقفًا في مصنع حيث يحتاج عامل إلى توجيه روبوت أثناء حمل قطع غيار، أو ارتداء قفازات، أو الوقوف على مسافة آمنة من المعدات المتحركة. في هذه الظروف، قد يكون الوصول إلى الأزرار أو لوحة التحكم بطيئًا أو حتى غير آمن. 

في المقابل، يمكن أن تكون أنظمة التحكم القائمة على الإيماءات طريقة أكثر عملية للتفاعل مع هذه الآلات دون استخدام اليدين. وهذا مفيد بشكل خاص للروبوتات التعاونية، أو الكوبوتات، المصممة للعمل جنبًا إلى جنب مع البشر. 

بدلاً من الذهاب إلى لوحة التحكم، يمكن للمشغلين استخدام إشارات يدوية بسيطة لبدء تشغيل الروبوت أو إيقافه أو توجيهه عن بُعد. وهذا يقلل من الاعتماد على أدوات التحكم المادية ويدعم سير العمل بشكل أكثر أمانًا في ورشة العمل.

يمكن لأنظمة التحكم المتقدمة القائمة على الرؤية والممكّنة بواسطة نماذج التعلم العميق أو خوارزميات التعلم أن تتجاوز الأوامر الأساسية. فهي قادرة على تفسير حركات اليد الدقيقة والاستجابة بسلاسة للتغييرات الطفيفة في الاتجاه والتوجيه والأتمتة الأكثر دقة. 

الشكل 4. يد آلية تحلل إيماءة المستخدم (المصدر)

إيجابيات وسلبيات تقنية التعرف على الإيماءات

فيما يلي بعض المزايا الرئيسية لاستخدام تقنية التعرف على الإيماءات:

  • تحسين إمكانية الوصول: يمكن أن توفر الإيماءات بديلاً للمستخدمين الذين يجدون صعوبة في استخدام لوحات المفاتيح أو شاشات اللمس أو أجهزة التحكم.
  • يعمل عن بعد: يمكن التعرف على الإيماءات من جميع أنحاء الغرفة، وهو أمر مفيد للتلفزيونات الذكية والأكشاك والأجهزة المنزلية.
  • مرونة عبر الأجهزة: يمكن استخدام مجموعات الإيماءات المماثلة عبر الهواتف والسيارات والشاشات الذكية وسماعات الرأس AR أو VR، مما يجعل التفاعل متسقًا.

في الوقت نفسه، هناك بعض التحديات الواقعية التي يمكن أن تؤثر على الدقة والاتساق. فيما يلي بعض العوامل التي يجب أخذها في الاعتبار:

  • مشاكل الإضاءة وجودة الكاميرا: قد يؤدي الإضاءة المنخفضة أو الوهج أو الظلال أو الكاميرات منخفضة الدقة إلى انخفاض أداء التعرف. وهذا بدوره قد يؤثر على التحكم في الحركة.
  • الاختلاف بين المستخدمين: من الطبيعي أن يؤدي كل شخص الإيماءات بطريقة مختلفة، وقد تؤثر الاختلافات في حجم اليد ومرونة الأصابع أو الملحقات على الدقة.
  • قيود الحركة السريعة: قد تؤدي الإيماءات السريعة إلى ظهور ضبابية في الحركة أو فقدان الإطارات الرئيسية في النموذج، خاصة في الكاميرات ذات معدل الإطارات المنخفض.

النقاط الرئيسية

تجاوزت تقنية التعرف على الإيماءات مرحلة مختبرات الأبحاث وأصبحت الآن جزءًا من الأجهزة والابتكارات اليومية. على وجه التحديد، تتيح الرؤية الحاسوبية التحكم بدون لمس في الألعاب والروبوتات والمنازل الذكية وأنظمة السيارات. مع تحسن نماذج الرؤية، من المرجح أن تصبح هذه الواجهات التي لا تتطلب اللمس أسهل في البناء وأكثر استخدامًا على نطاق واسع.

اكتشف مجتمعنا ومستودع GitHub لمعرفة المزيد عن نماذج الرؤية الحاسوبية. استكشف صفحات الحلول لدينا لتقرأ عن تطبيقات مثل الذكاء الاصطناعي في الزراعة والرؤية الحاسوبية في مجال الخدمات اللوجستية. تحقق من خيارات الترخيص لدينا وابدأ في بناء نموذج الرؤية الاصطناعية الخاص بك.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا