利用 Ultralytics YOLO11 增强手部关键点估计
探索利用 Ultralytics YOLO11 对姿态估计的支持,实现人工智能驱动的手部关键点估计,应用于实时手势识别等场景。

最近,超级碗的手语翻译员引起了极大的关注。当你在电视上看着他们表演你最喜爱歌手的歌曲时,如果你懂手语,就能理解其中的含义,因为你的大脑处理了他们的手部动作。但如果计算机也能做到这一点呢?得益于人工智能驱动的手部追踪解决方案,机器现在能够以令人印象深刻的准确度追踪和解读手部动作。
这些解决方案的核心是 computer vision,这是 AI 的一个子领域,旨在使机器能够处理和理解视觉信息。通过分析图像和视频,计算机视觉 AI 能够帮助它们以惊人的准确度检测物体、追踪运动并识别复杂的姿势。
例如,像 Ultralytics YOLO11 这样的计算机视觉模型,可以通过姿态估计实时训练以检测和分析手部关键点。通过这种方式,这些模型可应用于手势识别、手语翻译和 AR/VR 交互等场景。
在本文中,我们将探讨 YOLO11 如何实现基于 AI 的手部追踪、训练所用的数据集,以及如何为手部姿态估计 custom-train 一个模型。我们还将深入了解一些实际应用。让我们开始吧!
Link to this section了解基于 AI 的手部关键点检测#
AI 可通过识别手腕、指尖和手指关节等关键点,用于识别和追踪视觉数据中的手部动作。一种称为 pose estimation 的方法,通过映射关键点并分析它们随时间的变化,帮助计算机理解人类的运动。这使得 AI 系统能够以高精度解读身体姿态、手势和运动模式。
Computer vision models 通过分析图像或视频来识别手部关键点并追踪其运动,从而实现这一点。一旦这些点被映射出来,AI 就可以通过分析关键点之间的空间关系及其随时间的变化来识别手势。
例如,如果拇指和食指之间的距离缩小,AI 可以将其解读为捏合动作。同样,追踪关键点在序列中的移动方式,有助于识别复杂的手部手势,甚至可以预测未来的动作。

Fig 1. 使用计算机视觉识别手部关键点的示例。
有趣的是,用于手部追踪的姿态估计开辟了令人兴奋的可能性,从智能设备的免提控制到机器人精度的提升,以及医疗应用中的辅助手段。随着 AI 和计算机视觉技术的不断演进,手部追踪很可能在让技术变得更具交互性、可访问性和直观性方面发挥更大的作用。
Link to this section探索用于姿态估计的 YOLO11#
在我们深入研究如何创建基于 AI 的手部追踪解决方案之前,让我们更仔细地了解一下姿态估计以及 YOLO11 如何支持这一 computer vision task。与识别整个物体的标准目标检测不同,姿态估计侧重于检测关键地标(例如关节、肢体或边缘),以分析运动和姿态。
具体来说,Ultralytics YOLO11 专为实时姿态估计而设计。通过利用自顶向下和自底向上的方法,它能在一步内高效地检测人员并估计关键点,在速度和准确性方面优于之前的模型。
YOLO11 开箱即用,已在 COCO-Pose dataset 上完成预训练,能够识别人体关键点,包括头部、肩部、肘部、手腕、臀部、膝盖和脚踝。

Fig 2. 使用 YOLO11 进行人体姿态估计。
除了人体姿态估计之外,YOLO11 还可以通过自定义训练来检测各种对象(包括生物和非生物)的关键点。这种灵活性使 YOLO11 成为广泛应用的绝佳选择。
Link to this sectionHand Keypoints 数据集概述#
自定义模型训练的第一步是收集数据并进行标注,或者找到适合项目需求的现有数据集。例如,Hand Keypoints 数据集是训练用于手部追踪和姿态估计的视觉 AI 模型的良好起点。它拥有 26,768 张标注图像,无需手动标记。
它可以用来训练像 Ultralytics YOLO11 这样的模型,以快速学习如何检测和追踪手部动作。该数据集每只手包含 21 个关键点,涵盖手腕、手指和关节。此外,该数据集的标注是由 Google MediaPipe 生成的,这是一个用于开发实时媒体处理 AI 解决方案的工具,确保了关键点检测的精确度和可靠性。

Fig 3. Hand Keypoints 数据集中包含的 21 个关键点。
使用这样的结构化数据集可以节省时间,让开发者能够专注于训练和微调他们的模型,而不是收集和标记数据。事实上,该数据集已经划分为训练集(18,776 张图像)和验证集(7,992 张图像),这使得评估模型性能变得非常容易。
Link to this section如何训练 YOLO11 进行手部姿态估计#
训练 YOLO11 进行手部姿态估计是一个简单的过程,尤其是使用 Ultralytics Python package,它使得设置和训练模型变得更加容易。由于 Hand Keypoints 数据集已在训练流程中得到支持,因此无需额外格式化即可直接使用,从而节省了时间和精力。
训练过程如下:
- 设置环境:第一步是安装 Ultralytics Python 包。
- 加载 Hand Keypoints 数据集:YOLO11 原生支持此数据集,因此可以自动下载并准备好。
- 使用预训练模型:你可以从预训练的 YOLO11 姿态估计模型开始,这有助于提高准确性并加快训练过程。
- 训练模型:模型通过多次训练周期学习检测和追踪手部关键点。
- 监控性能:Ultralytics 包还提供了内置工具来追踪关键指标,如准确率和损失,帮助确保模型随时间改进。
- 保存并部署:模型训练完成后,可以进行 exported 并用于实时手部追踪应用。
Link to this section评估你的自定义训练模型#
在创建自定义模型的过程中,你会发现监控性能至关重要。除了在训练期间追踪进度外,事后评估模型以确保其准确地检测和追踪手部关键点也至关重要。
准确率、损失值和平均精度均值 (mAP) 等关键 performance metrics 有助于评估模型性能。Ultralytics Python 包提供了内置工具来可视化结果并将预测结果与真实标注进行比较,从而更容易发现需要改进的地方。
为了更好地理解模型的性能,你可以检查评估图表,例如损失曲线、精确率-召回率曲线和混淆矩阵,这些图表会自动在训练日志中生成。
这些图表有助于识别过拟合(模型记住了训练数据但难以处理新数据)或欠拟合(模型未能学到足够的模式以进行准确预测)等问题,并指导调整以提高准确率。此外,在新的图像或视频上测试模型以观察其在现实场景中的表现也很重要。
Link to this sectionAI 驱动的手部追踪解决方案的应用#
接下来,让我们浏览一下 hand keypoints estimation with Ultralytics YOLO11 的一些最具影响力的应用。
Link to this section使用 YOLO11 实现实时手势识别#
假设你可以通过挥动手来调节电视音量,或者通过空中简单的滑动来操作智能家居系统。由 YOLO11 驱动的实时手势识别通过实时准确检测手部动作,使这些非接触式交互成为可能。
其工作原理是利用 AI cameras 追踪手部关键点并将手势解读为指令。深度传感摄像头、红外传感器甚至普通网络摄像头都可以捕捉手部动作,而 YOLO11 可以处理这些数据以识别不同的手势。例如,这样的系统可以区分用于切换歌曲的滑动动作、用于放大的捏合动作,或用于调节音量的圆周运动。
Link to this section基于 AI 的手语识别手部关键点检测#
用于手部追踪的 AI 解决方案可以支持聋哑人士与不懂手语的人之间的无缝沟通。例如,集成了摄像头和 YOLO11 的智能设备可以用于将手语即时翻译成文字或语音。
得益于 YOLO11 等进步,手语翻译工具正变得越来越准确且易于使用。这影响了辅助技术、实时翻译服务和教育平台等应用。AI 可以帮助弥合沟通鸿沟,并在工作场所、学校和公共场所促进包容性。
Link to this section计算机视觉手部追踪:改善 AR 和 VR 体验#
你玩过不需要控制器就能抓取物体的虚拟现实 (VR) 游戏吗?计算机视觉驱动的手部追踪使这一切成为可能,允许用户在 augmented reality (AR) 和 VR 环境中自然地进行交互。

Fig 4. 手部追踪是 AR 和 VR 应用的关键部分。
利用 Ultralytics YOLO11 等模型进行手部关键点估计,AI 可以实时追踪运动,实现捏合、抓取和滑动等手势。这增强了游戏、虚拟培训和远程协作的体验,使交互更加直观。随着手部追踪技术的提升,AR 和 VR 将会带来更具沉浸感和逼真的体验。
Link to this section关键要点#
使用 Ultralytics YOLO11 进行手部关键点估计,正在使 AI 驱动的手部追踪解决方案变得更加易用和可靠。从实时手势识别到手语翻译和 AR/VR 应用,计算机视觉正在开启人机交互的新可能。
此外,简化的自定义训练和微调流程正在帮助开发者构建适用于各种现实用途的高效模型。随着计算机视觉技术的演进,我们期待在医疗保健、机器人、游戏和安全等领域看到更多创新。
加入 我们的社区 并探索 GitHub 仓库 上的 AI 进展。通过我们的解决方案页面发现 制造业中的 AI 和 医疗保健中的计算机视觉 的影响。探索 我们的授权计划,立即开启您的 AI 之旅!






