深圳尤洛视觉
深圳
立即加入

探索如何使用计算机视觉进行视线检测

Abirami Vina

5 分钟阅读

2025年2月19日

了解目标检测和姿态估计等视觉 AI 技术如何在各种应用中用于眼动追踪和视线检测。

计算机视觉是人工智能 (AI) 的一个分支,专注于使机器能够以类似于人类的方式分析和解释视觉数据。视觉人工智能一个特别吸引人的应用是视线检测,它使机器能够跟踪和理解一个人的视线方向。

作为人类,我们可以自然地跟随一个人的目光,并理解他们正在关注什么。例如,如果你正在和朋友说话,他们突然看向门口,你可能会本能地转过身去看看是什么引起了他们的注意。另一方面,机器不具备这种内置能力——它们需要使用计算机视觉技术进行训练,以识别眼睛的运动并解释目光的方向。 

随着全球注视检测市场预计到 2032 年将达到 119 亿美元,许多行业正在采用它来用于不同的应用。例如,汽车中的注视检测正被用于通过监控注意力水平和检测嗜睡或分心的迹象来提高驾驶员的安全性。

在本文中,我们将探讨计算机视觉如何用于眼动追踪和视线检测。我们还将了解它在各个行业中的一些关键应用。让我们开始吧!

什么是眼动追踪和视线检测?

眼动追踪和注视点检测是用于确定一个人注意力焦点的技术,通过分析眼睛的运动和注视方向来实现。 借助人工智能和传感器技术的进步,现在可以实时追踪一个人的眼睛。 

传统上,大多数眼动追踪系统依赖于红外 (IR) 摄像头,通过近红外光照射眼睛并捕捉角膜反射来检测瞳孔运动。这些系统提供高精度。然而,它们通常需要专门的头戴设备,佩戴起来可能不舒服,并且容易出现校准问题。

随着 AI 的兴起,研究人员一直在积极探索基于计算机视觉的眼动追踪方法。与传统的基于 IR 的系统不同,这些方法依赖于计算机视觉模型(如 Ultralytics YOLO11)来检测面部特征(如眼睛和瞳孔),以及执行头部姿势估计。除此之外,NVIDIA 的 GazeNet 等专用深度学习模型专门为注视估计而设计。 

__wf_reserved_inherit
图 1. 使用 YOLO11 检测人的眼睛和瞳孔的示例。

尽管基于计算机视觉的眼动追踪仍处于发展阶段,但它有潜力使眼动追踪更易于使用,从而降低营销、心理学和神经科学等应用领域的成本并提高可用性。

注视检测和眼动追踪的演变

接下来,让我们探讨一下从传统的基于红外的系统到更易于访问的软件驱动型解决方案的转变。

您可能想知道是否可以在没有 AI 的情况下进行眼动追踪和视线检测——那么为什么还要继续研究将 AI 和计算机视觉集成到这些技术中呢?虽然存在传统的眼动追踪方法,但它们通常依赖于专用的红外摄像机和头戴式眼动追踪设备,这些设备可能很昂贵、笨重并且需要受控的照明条件。然而,人工智能驱动的解决方案可以使用标准网络摄像头和智能手机摄像头实现眼动追踪,从而降低成本并提高可访问性。 

__wf_reserved_inherit
图 2. 头戴式眼动追踪设备。

以下是眼动追踪和视线检测技术发展背后的一些其他因素:

  • 应用:软件驱动的方法使该领域能够扩展到研究之外,进入消费设备和游戏等领域。
  • 可扩展性: AI 可以介入,使视线跟踪解决方案可供更广泛的受众使用,从个人用户到大型行业。
  • 相机技术的进步:今天,我们可以使用更高分辨率的智能手机和网络摄像头,从而提高眼动追踪的准确性——这在 20 年前是不可行的。

使用 Ultralytics YOLO11 进行视线检测和眼动追踪

既然我们已经讨论了计算机视觉在眼动追踪和视线检测中的作用,那么让我们来看看如何在此处使用 YOLO11。

Ultralytics YOLO11 支持诸如目标检测和姿态估计等任务。它在 COCO 数据集 上进行了预训练,在检测各种目标时实现了高精度。具体来说,对于注视检测解决方案,YOLO11 可以发挥辅助作用。 

虽然它不能直接预测注视方向,但可以对其进行微调,以检测面部、眼睛和瞳孔,这些是进一步分析的关键。一旦识别出这些特征,其他模型就可以处理眼动数据来估计注视方向。 

例如,为了提高准确性,可以在诸如WIDER FACE等面部检测数据集上对YOLO11进行自定义训练。此外,关于YOLO11的姿态估计能力,它可以帮助跟踪头部方向,从而提高注视检测的准确性。

__wf_reserved_inherit
图 3. YOLO11 可用于检测人脸。

眼动追踪的真实世界应用

在计算机视觉的支持下,视线检测在各个行业都有广泛的应用,从提高汽车行业的安全性到分析游戏中的注意力。 让我们来探讨一下不同的领域是如何利用这项技术的。

游戏中的视线追踪

眼动追踪被应用于 游戏 领域,以提供对玩家注意力焦点、决策过程和反应时间的实时洞察。 通过追踪眼球运动,这项技术可以帮助玩家改进策略、加强培训计划,并通过可视化地展示玩家在关键时刻的注视位置来提高观众参与度。

这方面一个有趣的例子是模拟赛车,这是一种具有竞争力的虚拟赛车运动,玩家使用逼真的驾驶模拟进行比赛。眼睛跟踪有助于分析车手如何专注于赛道、对对手做出反应以及通过急转弯。通过实时跟踪他们的视线,教练可以识别模式、发现干扰并改进赛车策略。 

__wf_reserved_inherit
图 4. 眼动追踪可用于监测和分析模拟赛车手。 

除了模拟赛车之外,眼动追踪还被用于快节奏的竞技游戏中,以分析玩家的反应、反应时间和他们如何专注于关键的游戏元素。通过了解玩家在移动之前看哪里,这些数据有助于优化决策、提高精度并加强高级游戏训练。

用于心理学研究的视线估计

有许多与研究相关的注视估计的视觉AI应用。一个很好的例子是它在心理学中用于研究注意力、认知负荷和社会行为。通过分析眼球运动,研究人员可以深入了解感知、决策和精神健康状况,如自闭症和多动症。 

具体来说,使用计算机视觉的眼动追踪有助于识别眼球运动、注视持续时间和视觉注意力的模式,这些模式可以揭示认知和情绪状态。随着深度学习和 AI 驱动的眼动估计的进步,这些方法正变得越来越准确和易于使用,从而可以在神经学研究中实现更广泛的应用。

汽车安全

多年来,研究人员使用了不同的方法来研究驾驶员在不同交通状况下的注意力和注意力。在这些方法中,眼动追踪至关重要,它可以提供对驾驶员在驾驶时正在看哪里的见解。 

借助计算机视觉模型,注视检测可以通过实时准确地跟踪眼睛运动来进一步改进此分析。此分析可以让我们更好地了解驾驶员的行为,帮助识别分心、疲劳或注意力不集中,从而提高道路安全性并协助开发高级驾驶员辅助系统。

__wf_reserved_inherit
图 5. 使用面部检测和视线跟踪监控驾驶员的示例。

例如,如果驾驶员经常将视线从道路上移开去查看手机,或者在十字路口反应迟缓,系统可以检测到这些行为并发出警报以重新集中他们的注意力,从而可能防止事故发生。

眼动追踪和视线检测的优缺点

以下是眼动追踪和视线检测技术可以为我们的日常生活带来的一些主要好处:

  • 提高意识:眼动追踪可以深入了解人们如何通过视觉与周围环境互动,从而帮助更好地理解注意力和焦点模式。
  • 更好的决策:从眼动追踪收集的数据有助于研究人员和专业人员根据客观的注意力模式做出明智的决策。
  • 改善视觉工效学:分析注视行为有助于设计屏幕、工作区和环境,从而减少眼睛疲劳并提高舒适度。

虽然这些优势突出了注视检测如何对我们的生活产生积极影响,但同样重要的是要考虑其实施所涉及的挑战。以下是一些需要注意的关键限制:

  • 隐私问题 持续的眼动追踪可能会引发隐私问题,使用户感到不舒服。确保透明度、用户同意和本地数据处理可以帮助缓解这些担忧。
  • 高计算需求: 实时眼动追踪可能需要强大的硬件,从而限制了在低功耗设备上的可访问性。但是,经过优化的模型正在帮助提高效率。
  • 准确性限制: 由于光照变化、头部移动或眼镜和头发等障碍物,在现实环境中,视线跟踪的可靠性可能会降低。相机角度也会影响性能。

着眼未来

在 YOLO11 等计算机视觉模型的支持下,眼动追踪和注视点检测正在改变我们与世界互动的方式。 从提高道路安全性到理解人类行为,这项技术在日常生活中变得越来越有用。

虽然存在隐私问题和需要强大的计算机等挑战,但人工智能和计算机视觉的进步正在使眼动追踪更加准确和易于使用。随着技术的不断改进,它可能会在更多行业中发挥更大的作用。

要了解更多信息,请访问我们的 GitHub 存储库 并与 我们的社区 互动。在我们的解决方案页面上探索 自动驾驶汽车中的 AI农业中的计算机视觉 等领域的创新。查看 我们的许可选项,让您的视觉 AI 项目成为现实。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板