遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

Vision AI 实现非接触式手势识别技术

探索计算机视觉如何驱动手势识别技术,以检测、跟踪和理解各种应用中的手势。

ABAbirami Vina
4 min read
Vision AI 驱动非接触式手势识别

随着技术的发展,我们与技术互动的方式也在不断演变。早期的机器依赖体力操作和机械控制,而现代计算机科学引入了触摸屏和语音输入。

如今,手势识别成为下一次迭代的一部分,将自然动作作为用户界面。简单的挥手、捏合或快速的手势即可控制应用、屏幕和机器。

这种非接触式交互可以通过 computer vision 来实现,这是 AI 的一个分支,旨在帮助机器“看见”并理解摄像头捕捉到的内容。视觉 AI 系统可以内置在智能手机、虚拟现实 (VR) 和增强现实 (AR) 头显、汽车以及智能家居设备中,通过手势代替点击、按键,提供更流畅的用户体验。

非接触式控制在日常生活中正变得越来越普遍。在工作场所和共享空间中,避免身体接触可以提升卫生水平并保障安全。许多数字产品也正在向免提交互转型,手势提供了一种简单、直观的设备控制方式,无需任何接触。

在本文中,我们将探讨什么是手势识别、计算机视觉如何提高其准确性,以及它在现实世界中的应用场景。让我们开始吧!

Link to this section什么是手势识别?#

手势识别是一种感知技术,允许机器理解人类的手势(如手语或身体动作),并将其转换为数字操作。用户无需触碰屏幕或按压按钮,即可通过简单、自然的动作控制设备。

这使得交互感觉更加直观,也是手势输入被广泛应用于许多机器学习和 AI 驱动的控制系统的原因。特别是手势识别,它是手势识别中最常用的形式之一,通常依赖于计算机视觉。

简单来说,视觉 AI 解决方案可以在摄像头画面中定位手部,追踪其移动或形状变化,并将这些模式与已知手势匹配,从而触发屏幕上的操作。

这些解决方案的核心是 computer vision model,它是在包含不同手势的标注图像或视频数据集上训练出来的。通过多样的训练数据和精细的评估,模型可以更好地泛化到不同的用户、光照条件和背景中,从而在现实环境中更可靠地识别手势。

用于训练计算机视觉模型以检测手势关键点的数据

图 1. 用于训练计算机视觉模型以检测手势关键点的数据 (Source)

Link to this section探索不同类型的手势与人机交互#

在深入了解计算机视觉在手势识别中的作用之前,让我们退一步看看这些系统通常识别的手势类型。

在大多数情况下,手势分为两类:静态和动态。静态手势是指固定的手部姿势,例如点赞、停止手势或剪刀手。由于它们不涉及运动,通常可以从单帧图像中识别出来。

同时,动态手势涉及随时间变化的运动,例如在空中挥手或滑动。为了识别这些手势,视觉 AI 系统需要分析多个帧,以便追踪手部的移动轨迹,并理解手势的方向和时序。

Link to this section计算机视觉算法在手势识别中的作用#

手势识别系统可以通过多种方式构建。一些输入法系统使用可穿戴传感器,例如手套或佩戴在手腕上的追踪器,来捕捉手部运动。

这些设置虽然准确,但并不总是实用。可穿戴设备需要佩戴、设置、充电和维护,在共享空间或日常使用中可能会显得受限。

这就是为什么许多尖端系统转而依赖计算机视觉的原因。通过标准的 RGB 摄像头和深度或飞行时间传感器,设备可以实时捕捉手部和身体运动,无需用户佩戴额外设备。这使得基于视觉的手势识别非常适合智能手机、汽车、智能电视以及 AR 和 VR 头显。

例如,像 Ultralytics YOLO11 和即将推出的 Ultralytics YOLO26 这样的计算机视觉模型,支持目标检测、目标追踪和姿态估计等任务。这些能力可用于在每一帧中检测手部、追踪其随时间的移动,并映射指尖和关节等关键点。这使得识别诸如举手暂停、捏合缩放、滑动菜单导航或在 AR 和 VR 中指向选择项目等手势成为可能。

Link to this section用于人机交互识别的计算机视觉任务#

以下是手势识别中常用的一些关键 computer vision tasks 的概述:

  • 目标检测 (Object detection):该任务用于定位图像或视频帧中的手部,通常通过在周围绘制边界框 (BBox) 来实现。它有助于系统专注于手势区域,并忽略不必要的背景细节。
  • 目标追踪 (Object tracking): 在目标检测的基础上,该任务在多帧中持续追踪已检测到的手部,并维持其身份。这对于动态手势尤为重要,因为移动和方向至关重要。
  • 姿态估计 (Pose estimation): 不同于专注于边界框,姿态估计识别手部关键点,如指尖、指关节和手腕。这些标记点创建了一个简单的手部骨架,捕捉手指位置和细微动作,从而实现更详细的手势分类。
  • 实例分割 (Instance segmentation): 该任务旨在通过为每个可见的手部生成掩码 (mask),在像素级别上将每只手与背景分离开来。这在场景杂乱、手部重叠或画面中出现多只手时非常有用。

许多视觉 AI 解决方案将这些任务结合在一起,作为单一管线的一部分。例如,系统可能会先通过目标检测找到手部,然后利用追踪技术在多帧中跟随它们,从而识别动态手势。

如果手势取决于手指的位置,姿态估计可以添加关键点以获取更精细的细节,而实例分割则有助于在杂乱场景或多手重叠时更精确地隔离每一只手。通过协同工作,这些步骤同时提供了位置和运动信息,使手势识别更加准确和可靠。

Link to this section基于视觉的手势识别如何工作#

现在我们对支持手势识别的计算机视觉任务有了更好的理解,让我们逐步看看基于视觉的系统是如何运作的。

典型的系统首先从摄像头获取视频,如果设备支持,有时还会包含深度数据。接着使用图像处理对帧进行预处理,使其更易于模型一致性处理,例如调整大小、稳定化或减少噪声和运动模糊。

接下来,系统通过检测或分割识别画面中的手部,并利用追踪技术随时间进行跟随。如果应用需要更精细的细节,系统也可能运行姿态估计来提取诸如指尖和关节等关键点。利用这些信息,模型会对该手势进行分类,无论是类似点赞的单帧姿势,还是类似滑动的运动模式。

最后,识别出的手势会被映射到界面中的某个操作,例如滚动、缩放、选择项目、调节音量或控制 AR 和 VR 交互。具体流程各异,简单的应用步骤较少,而复杂的应用则会结合检测、追踪和姿态估计以获得更高的准确性。

Link to this section基于视觉的手势识别的应用#

接下来,让我们浏览一下手势识别在理解手部位置的现实世界应用中是如何被使用的。

Link to this section与汽车信息娱乐系统的手势交互#

手势识别开始出现在智能车辆接口中,特别是在信息娱乐系统中。这是一种通过简单手部动作控制某些功能的便捷方式,可以减少驾驶员触碰屏幕或实体按键的频率。例如,可以使用快速手势来调节音量、管理通话或浏览屏幕菜单。

一名驾驶员在车载娱乐系统检测范围内做出手势

图 2. 驾驶员在信息娱乐系统的检测范围内执行手势 (Source)

Link to this section游戏中的手势驱动交互#

gaming 和沉浸式体验中,基于手势的控制正在改变人们与虚拟世界互动的方式。玩家不再仅仅依赖控制器或操纵杆,而是可以使用自然的动作来导航菜单、拾取虚拟物体、控制角色或触发游戏中的操作。

通过手势玩游戏

图 3. 使用手势玩游戏 (Source)。

这种非接触式交互在 AR 和 VR 中感觉更加流畅。因此,手部追踪和手势控制正成为 VR 和混合现实头显的常见功能。

Link to this section智能家居设备的无缝手势控制#

Smart home devices 如智能电视、扬声器和互联灯具开始支持手势控制,以实现快速的非接触式操作。通过简单的手部动作,用户可以开关灯光、调节音量或触发基本命令,无需触碰开关或遥控器。

例如,在家庭娱乐设置中,内置或连接的深度摄像头可以识别滑动、指向或举手等手势。这使得用户可以更轻松地在房间的另一端浏览菜单、更改设置或确认选择。在幕后,计算机视觉模型会实时处理摄像头画面,以检测并解释这些手势。

Link to this section机器人技术中由人工智能赋能的手势控制#

设想一下工厂环境,工人需要在携带零件、戴着手套或站在距离移动设备一定安全距离的地方引导机器人。在这种设置下,伸手去按按钮或操作控制面板可能会很缓慢,甚至不安全。

相比之下,基于手势的控制系统可以成为与这些机器交互的一种更实用的免提方式。这对于协作 robots(即协作机器人,cobots)尤为有用,因为它们被设计为与人类协同工作。

操作员无需走到控制面板前,即可使用简单的手势在远处启动、停止或引导机器人。这减少了对物理控制的依赖,并有助于在车间支持更安全的工作流。

由深度学习模型或学习算法驱动的高级视觉控制系统还可以超越基本命令。它们可以解读更精细的手部动作,并顺畅地响应小的方向变化,实现更精确的引导和自动化。

一只机械手正在分析用户的手势

图 4. 机器人手分析用户的手势 (Source)

Link to this section手势识别技术的优缺点#

以下是使用手势识别技术的一些关键优势:

  • 改善辅助功能:对于觉得键盘、触摸屏或控制器难以使用的用户,手势可以提供一种替代方案。
  • 远距离操作:手势可以从房间的另一端被识别,这对智能电视、自助服务终端和家用设备非常有用。
  • 跨设备灵活性:相似的手势集可以在手机、汽车、智能显示器以及 AR 或 VR 头显上运行,使得交互保持一致。

与此同时,现实世界中还有一些挑战会影响准确性和一致性。以下是一些需要考虑的因素:

  • 光照和摄像头质量问题:低光、眩光、阴影或低分辨率的 cameras 可能会降低识别性能。这进而会影响动作控制。
  • 用户间的差异:人们执行手势的方式各不相同,手部大小、手指灵活性或装饰品等的差异都会影响准确性。
  • 快速运动的限制:快速的手势可能会引入运动模糊或导致模型错过关键帧,特别是在低帧率摄像头上。

Link to this section关键要点#

手势识别技术已经走出了研究实验室,成为日常设备和创新的一部分。特别是计算机视觉在游戏、机器人、智能家居和汽车系统中实现了非接触式控制。随着视觉模型的改进,这些非接触式接口可能会变得更容易构建且得到更广泛的应用。

发现我们的 communityGitHub repository 以了解更多关于计算机视觉模型的信息。探索我们的解决方案页面,阅读有关 AI in agriculturecomputer vision in logistics 等应用的内容。查看我们的 licensing options 并开始构建你自己的视觉 AI 模型。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅