利用计算机视觉和YOLO11 进行凝视检测 |Ultralytics

计算机视觉是人工智能（AI）的一个分支，主要是让机器能够以类似人类的方式分析和解释视觉数据。视觉人工智能的一个特别引人入胜的应用是凝视检测，它能让机器track 和理解人的视线。

作为人类，我们可以自然地跟随一个人的目光，并理解他们正在关注什么。例如，如果你正在和朋友说话，他们突然看向门口，你可能会本能地转过身去看看是什么引起了他们的注意。另一方面，机器不具备这种内置能力——它们需要使用计算机视觉技术进行训练，以识别眼睛的运动并解释目光的方向。

随着全球注视检测市场预计到 2032 年将达到 119 亿美元，许多行业正在采用它来用于不同的应用。例如，汽车中的注视检测正被用于通过监控注意力水平和检测嗜睡或分心的迹象来提高驾驶员的安全性。

在本文中，我们将探讨计算机视觉如何用于眼动追踪和视线检测。我们还将了解它在各个行业中的一些关键应用。让我们开始吧！

什么是眼动追踪和视线检测？

眼球跟踪和凝视检测是通过分析眼球运动和凝视方向来确定人的注意力焦点的技术。由于人工智能和传感器技术的进步，现在已经可以实时track 人的眼睛。

传统上，大多数眼球跟踪系统都依赖于红外（IR）相机，这种相机通过近红外光照射眼睛并捕捉角膜反射来detect 瞳孔运动。这些系统精度高。不过，它们通常需要专门的头戴设备，佩戴起来可能不舒服，而且容易出现校准问题。

随着人工智能的兴起，研究人员一直在积极探索基于计算机视觉的眼球跟踪方法。与传统的红外系统不同，这些方法依赖于计算机视觉模型，如 Ultralytics YOLO11等计算机视觉模型来detect 眼睛和瞳孔等面部特征，并对头部姿势估计进行估计。除此之外，专门的深度学习模型，NVIDIA的 GazeNet，就是专为注视估计而设计的。

__wf_reserved_inherit — 图 1.使用YOLO11 detect 人眼和瞳孔的示例。

尽管基于计算机视觉的眼动追踪仍处于发展阶段，但它有潜力使眼动追踪更易于使用，从而降低营销、心理学和神经科学等应用领域的成本并提高可用性。

注视检测和眼动追踪的演变

接下来，让我们探讨一下从传统的基于红外的系统到更易于访问的软件驱动型解决方案的转变。

您可能想知道是否可以在没有 AI 的情况下进行眼动追踪和视线检测——那么为什么还要继续研究将 AI 和计算机视觉集成到这些技术中呢？虽然存在传统的眼动追踪方法，但它们通常依赖于专用的红外摄像机和头戴式眼动追踪设备，这些设备可能很昂贵、笨重并且需要受控的照明条件。然而，人工智能驱动的解决方案可以使用标准网络摄像头和智能手机摄像头实现眼动追踪，从而降低成本并提高可访问性。

以下是眼动追踪和视线检测技术发展背后的一些其他因素：

应用：软件驱动的方法使该领域能够扩展到研究之外，进入消费设备和游戏等领域。
‍
可扩展性: AI 可以介入，使视线跟踪解决方案可供更广泛的受众使用，从个人用户到大型行业。
‍
相机技术的进步：今天，我们可以使用更高分辨率的智能手机和网络摄像头，从而提高眼动追踪的准确性——这在 20 年前是不可行的。

使用Ultralytics YOLO11 进行凝视检测和眼动跟踪

既然我们已经讨论了计算机视觉在眼球跟踪和注视检测中的作用，那么下面就让我们来看看YOLO11 如何在这里使用。

Ultralytics YOLO11 支持物体检测和姿势估计等任务。它在COCO 数据集上进行了预先训练，在检测各种物体方面达到了很高的精度。具体来说，对于凝视检测解决方案，YOLO11 可以发挥辅助作用。

虽然它不能直接预测注视方向，但可以通过微调来detect 人脸、眼睛和瞳孔，这对进一步分析至关重要。一旦确定了这些特征，其他模型就可以处理眼球运动数据，从而估算出注视方向。

例如，为了提高准确性，YOLO11 可以在 WIDER FACE 等数据集上进行定制训练，用于人脸检测。此外，YOLO11 的姿势估计功能可以帮助track 头部方向，从而提高凝视检测的准确性。

眼动追踪的真实世界应用

在计算机视觉的支持下，视线检测在各个行业都有广泛的应用，从提高汽车行业的安全性到分析游戏中的注意力。让我们来探讨一下不同的领域是如何利用这项技术的。

游戏中的视线追踪

眼动追踪被应用于游戏领域，以提供对玩家注意力焦点、决策过程和反应时间的实时洞察。通过追踪眼球运动，这项技术可以帮助玩家改进策略、加强培训计划，并通过可视化地展示玩家在关键时刻的注视位置来提高观众参与度。

一个有趣的例子是模拟赛车，这是一种竞争激烈的虚拟赛车运动，玩家通过逼真的模拟驾驶进行比赛。眼动跟踪有助于分析驾驶员如何专注于track、对对手做出反应以及如何驾驭急转弯。通过实时跟踪他们的视线，培训师可以识别模式、发现分心现象并改进赛车策略。

除了模拟赛车之外，眼动追踪还被用于快节奏的竞技游戏中，以分析玩家的反应、反应时间和他们如何专注于关键的游戏元素。通过了解玩家在移动之前看哪里，这些数据有助于优化决策、提高精度并加强高级游戏训练。

用于心理学研究的视线估计

有许多与研究相关的注视估计的视觉AI应用。一个很好的例子是它在心理学中用于研究注意力、认知负荷和社会行为。通过分析眼球运动，研究人员可以深入了解感知、决策和精神健康状况，如自闭症和多动症。

具体来说，使用计算机视觉的眼动追踪有助于识别眼球运动、注视持续时间和视觉注意力的模式，这些模式可以揭示认知和情绪状态。随着深度学习和 AI 驱动的眼动估计的进步，这些方法正变得越来越准确和易于使用，从而可以在神经学研究中实现更广泛的应用。

汽车安全

多年来，研究人员使用了不同的方法来研究驾驶员在不同交通状况下的注意力和注意力。在这些方法中，眼动追踪至关重要，它可以提供对驾驶员在驾驶时正在看哪里的见解。

借助计算机视觉模型，注视检测可以通过实时准确地跟踪眼睛运动来进一步改进此分析。此分析可以让我们更好地了解驾驶员的行为，帮助识别分心、疲劳或注意力不集中，从而提高道路安全性并协助开发高级驾驶员辅助系统。

例如，如果驾驶员经常把目光从道路上移开查看手机，或者在十字路口反应迟钝，系统就能detect 这些行为，并发出警报，提醒驾驶员重新集中注意力，从而避免事故的发生。

眼动追踪和视线检测的优缺点

以下是眼动追踪和视线检测技术可以为我们的日常生活带来的一些主要好处：

提高意识：眼动追踪可以深入了解人们如何通过视觉与周围环境互动，从而帮助更好地理解注意力和焦点模式。
‍
更好的决策：从眼动追踪收集的数据有助于研究人员和专业人员根据客观的注意力模式做出明智的决策。
‍
改善视觉工效学：分析注视行为有助于设计屏幕、工作区和环境，从而减少眼睛疲劳并提高舒适度。

虽然这些优势突出了注视检测如何对我们的生活产生积极影响，但同样重要的是要考虑其实施所涉及的挑战。以下是一些需要注意的关键限制：

隐私问题：持续的眼动追踪可能会引发隐私问题，使用户感到不舒服。确保透明度、用户同意和本地数据处理可以帮助缓解这些担忧。

高计算需求： 实时眼动追踪可能需要强大的硬件，从而限制了在低功耗设备上的可访问性。但是，经过优化的模型正在帮助提高效率。

准确性限制： 由于光照变化、头部移动或眼镜和头发等障碍物，在现实环境中，视线跟踪的可靠性可能会降低。相机角度也会影响性能。

着眼未来

在YOLO11 等计算机视觉模型的支持下，眼动跟踪和注视检测技术正在改变我们与世界互动的方式。从提高道路安全到了解人类行为，这项技术在日常生活中的作用越来越大。

虽然存在隐私问题和需要强大的计算机等挑战，但人工智能和计算机视觉的进步正在使眼动追踪更加准确和易于使用。随着技术的不断改进，它可能会在更多行业中发挥更大的作用。

要了解更多信息，请访问我们的 GitHub 存储库并与我们的社区互动。在我们的解决方案页面上探索自动驾驶汽车中的 AI 和农业中的计算机视觉等领域的创新。查看我们的许可选项，让您的视觉 AI 项目成为现实。🚀

探索如何使用计算机视觉进行视线检测

什么是眼动追踪和视线检测？

注视检测和眼动追踪的演变

使用Ultralytics YOLO11 进行凝视检测和眼动跟踪

眼动追踪的真实世界应用

游戏中的视线追踪

用于心理学研究的视线估计

汽车安全

眼动追踪和视线检测的优缺点

着眼未来

阅读更多此类别的内容

什么是单目深度估计？概述

什么是图像计算？快速入门指南

什么是模板匹配？快速指南

让我们一起构建人工智能的未来！