敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

利用 Ultralytics YOLO11 增强手部关键点估计

Abirami Vina

6 分钟阅读

2025年3月5日

探索由 AI 驱动的 Ultralytics YOLO11 手部关键点估计,它支持姿势估计,可应用于实时手势识别等场景。

最近,超级碗上的手语翻译员受到了广泛关注。 当你在电视上观看他们用手语表演你最喜欢的艺术家的歌曲时,如果你懂手语,你就能理解他们,因为你的大脑会处理他们的手部动作。 但是,如果计算机可以做同样的事情呢? 借助 AI 驱动的手部跟踪解决方案,机器可以以惊人的准确度跟踪和解释手部动作。

这些解决方案的核心是计算机视觉,它是 AI 的一个子领域,使机器能够处理和理解视觉信息。 通过分析图像和视频,视觉 AI 帮助它们检测对象、跟踪运动并以惊人的准确度识别复杂的姿势。

例如,像 Ultralytics YOLO11 这样的计算机视觉模型可以通过姿态估计进行训练,以实时检测和分析手部关键点。通过这样做,这些模型可用于手势识别、手语翻译和 AR/VR 交互等应用。 

在本文中,我们将探讨 YOLO11 如何实现基于 AI 的手部跟踪、用于训练的数据集,以及如何自定义训练用于手部姿态估计的模型。我们还将了解实际应用。让我们开始吧!

了解基于人工智能的手部关键点检测

人工智能可以通过识别诸如手腕、指尖和手指关节等关键点来识别和跟踪视觉数据中的手部动作。一种称为姿态估计的方法通过映射关键点并分析它们随时间的变化来帮助计算机理解人类运动。这使得人工智能系统能够高精度地解释身体姿势、手势和运动模式。

计算机视觉模型通过分析图像或视频来识别手上的关键点并跟踪它们的运动,从而使这成为可能。一旦映射了这些点,AI就可以通过分析关键点之间的空间关系以及它们随时间的变化来识别手势。 

例如,如果拇指和食指之间的距离减小,AI 可以将其解释为捏合动作。同样,跟踪关键点在序列中的移动方式有助于识别复杂的手势,甚至预测未来的动作。

__wf_reserved_inherit
图 1. 使用计算机视觉识别手中关键点的示例。

有趣的是,用于手部追踪的姿势估计开启了令人兴奋的可能性,从智能设备的免提控制到改进的机器人精度以及在医疗保健应用中的辅助。随着 AI 和计算机视觉的不断发展,手部追踪可能会在使技术在日常生活中更具互动性、可访问性和直观性方面发挥更大的作用。

探索用于姿态估计的 YOLO11

在深入探讨如何创建基于人工智能的手部跟踪解决方案之前,让我们仔细看看姿势估计以及 YOLO11 如何支持这项计算机视觉任务。与识别整个目标的标准目标检测不同,姿势估计侧重于检测关键地标(例如关节、肢体或边缘)以分析运动和姿势。 

具体来说,Ultralytics YOLO11 专为实时姿势估计而设计。通过利用自上而下和自下而上的方法,它可以一步有效地检测人和估计关键点,在速度和准确性方面优于以前的模型。

YOLO11 开箱即用,已经在 COCO-Pose 数据集 上进行了预训练,可以识别包括头部、肩膀、肘部、手腕、臀部、膝盖和脚踝在内的人体关键点。 

__wf_reserved_inherit
图 2. 使用 YOLO11 进行人体姿态估计。

除了人体姿势估计之外,还可以对 YOLO11 进行自定义训练,以检测各种物体(包括动画和非动画)上的关键点。这种灵活性使 YOLO11 成为各种应用的绝佳选择。

Hand Keypoints 数据集概述

自定义训练模型的第一步是收集数据并对其进行注释,或者找到适合项目需求的现有数据集。例如,手部关键点数据集是训练用于手部跟踪和姿势估计的视觉 AI 模型的良好起点。它拥有 26,768 张带注释的图像,无需手动标记。 

它可用于训练像 Ultralytics YOLO11 这样的模型,以快速学习如何检测和跟踪手部动作。该数据集包括每只手 21 个关键点,涵盖手腕、手指和关节。此外,该数据集的注释是使用 Google MediaPipe 生成的,Google MediaPipe 是一种用于开发用于实时媒体处理的 AI 驱动解决方案的工具,可确保精确可靠的关键点检测。 

__wf_reserved_inherit
图 3. 手部关键点数据集中包含的 21 个关键点。

使用像这样的结构化数据集可以节省时间,让开发者专注于训练和微调模型,而不是收集和标注数据。事实上,该数据集已经被分成训练集(18,776张图像)和验证集(7,992张图像)子集,方便评估模型性能。 

如何训练 YOLO11 进行手部姿势估计

训练用于手部姿势估计的 YOLO11 是一个简单的过程,特别是使用 Ultralytics Python 包,它可以更轻松地设置和训练模型。由于训练流程中已支持手部关键点数据集,因此可以直接使用,无需额外的格式设置,从而节省时间和精力。

以下是训练过程的工作原理:

  • 设置环境: 第一步是安装 Ultralytics Python 包。
  • 加载手部关键点数据集:YOLO11 原生支持此数据集,因此可以自动下载和准备。
  • 使用预训练模型: 您可以从预训练的 YOLO11 姿态估计模型开始,这有助于提高准确性并加快训练过程。
  • 训练模型: 该模型通过多个训练周期学习检测和跟踪手部关键点。
  • 监控性能: Ultralytics 包还提供内置工具来跟踪准确率和损失等关键指标,从而帮助确保模型随着时间的推移而改进。
  • 保存并部署: 训练完成后,可以将模型 导出 并用于实时手部跟踪应用。

评估您自定义训练的模型

在创建自定义模型的步骤中,您会注意到监控性能至关重要。除了在训练期间跟踪进度之外,在之后评估模型对于确保其准确检测和跟踪手部关键点至关重要。 

诸如准确率、损失值和平均精度均值 (mAP) 等关键性能指标有助于评估模型的性能。 Ultralytics Python 包提供了内置工具来可视化结果并将预测与真实标注进行比较,从而更轻松地发现需要改进的领域。

为了更好地理解模型的性能,您可以查看评估图,例如损失曲线、精确率-召回率图和混淆矩阵,这些图会自动在训练日志中生成。 

这些图表有助于识别诸如过拟合(当模型记住训练数据但在处理新数据时遇到困难)或欠拟合(当模型未能充分学习模式以准确执行)等问题,并指导调整以提高准确性。此外,在新图像或视频上测试模型以了解其在现实场景中的工作效果非常重要。

AI 驱动的手部追踪解决方案的应用

接下来,让我们逐步了解 使用 Ultralytics YOLO11 进行手部关键点估计 的一些最具影响力的应用。

使用 YOLO11 进行实时手势识别

假设您可以通过简单地挥动手来调节电视音量,或者通过在空中简单滑动来导航智能家居系统。由 YOLO11 驱动的实时手势识别通过实时准确地检测手部动作,使这些非接触式交互成为可能。 

这项技术通过使用 AI摄像头 跟踪您手上的关键点,并将手势解读为命令来实现。深度感知摄像头、红外传感器,甚至普通的网络摄像头都可以捕捉手部动作,而YOLO11可以处理这些数据来识别不同的手势。例如,这样的系统可以区分滑动(切换歌曲)、捏合(放大)或圆周运动(调节音量)。

用于手语识别的基于人工智能的手部关键点检测

用于手部跟踪的人工智能解决方案可以支持聋哑人与不懂手语的人之间的无缝交流。例如,集成摄像头和 YOLO11 的智能设备可用于立即将手语翻译成文本或语音。 

得益于YOLO11等技术的进步,手语翻译工具正变得更加准确和易于使用。 这将影响辅助技术、实时翻译服务和教育平台等应用。 人工智能可以帮助弥合沟通障碍,并在工作场所、学校和公共场所促进包容性。

用于手部跟踪的计算机视觉:改善 AR 和 VR 体验

您是否玩过虚拟现实 (VR) 游戏,可以在不使用控制器的情况下抓取物体?由计算机视觉驱动的手部追踪通过允许用户在 增强现实 (AR) 和 VR 环境中自然互动,使这成为可能。 

__wf_reserved_inherit
图 4. 手部跟踪是 AR 和 VR 应用的关键部分。

通过使用像Ultralytics YOLO11这样的模型进行手部关键点估计,AI可以实时跟踪动作,从而实现捏合、抓取和滑动等手势。这增强了游戏、虚拟训练和远程协作体验,使交互更加直观。随着手部跟踪技术的改进,AR和VR将变得更加身临其境和栩栩如生。 

主要要点

使用 Ultralytics YOLO11 进行手部关键点估计使 AI 驱动的手部跟踪解决方案更易于访问和更可靠。从实时手势识别到手语翻译和 AR/VR 应用,计算机视觉正在开启人机交互的新可能性。

此外,简化的自定义训练和微调过程正在帮助开发人员为各种实际用途构建高效的模型。随着计算机视觉技术的不断发展,我们可以期待在医疗保健、机器人、游戏和安全等领域出现更多的创新。

我们的社区互动,并在我们的GitHub 存储库上探索 AI 的进步。通过我们的解决方案页面,了解 AI 在制造业中的影响计算机视觉在医疗保健中的应用。浏览我们的许可计划,立即开始您的 AI 之旅!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板