深圳尤洛视觉
深圳
立即加入

2025 年目标检测深度解析指南

Abirami Vina

6 分钟阅读

2025年2月6日

了解目标检测、其在 AI 中的重要性,以及 YOLO11 等模型如何改变自动驾驶汽车、医疗保健和安全等行业。

许多行业正在迅速将人工智能 (AI) 解决方案集成到其运营中。在当今可用的众多 AI 技术中,计算机视觉是最受欢迎的技术之一。计算机视觉是 AI 的一个分支,它帮助计算机像人类一样看到和理解图像和视频的内容。它使机器能够识别物体、识别模式并理解它们所看到的内容。 

据估计,到 2032 年,全球计算机视觉市场价值将增长到 1757.2 亿美元。计算机视觉包含各种任务,使视觉 AI 系统能够分析和解释视觉数据。目标检测是计算机视觉最广泛使用和最重要的任务之一。 

目标检测侧重于定位和分类视觉数据中的对象。例如,如果您向计算机显示一张奶牛的图像,它可以检测到奶牛并在其周围绘制一个边界框。这种能力在动物监测、自动驾驶汽车和监控等实际应用中非常有用。 

那么,如何执行目标检测呢?一种方法是通过计算机视觉模型。例如,Ultralytics YOLO11 是一种支持目标检测等计算机视觉任务的计算机视觉模型。 

在本指南中,我们将探讨目标检测及其工作原理。我们还将讨论目标检测和 Ultralytics YOLO11 的一些实际应用。

__wf_reserved_inherit
图 1. 使用 YOLO11 对目标检测的支持来监控牛群。

什么是目标检测? 

目标检测是一种计算机视觉任务,用于识别和定位图像或视频中的目标。它回答了两个关键问题:“图像中有哪些目标?”以及“它们位于哪里?”

您可以将目标检测视为一个包含两个关键步骤的过程。第一步是目标分类,它允许系统识别和标记目标,例如根据学习到的模式识别猫、汽车或人。第二步是定位,通过在目标周围绘制边界框来确定目标的位置,指示其在图像中的显示位置。这两个步骤共同使机器能够检测和理解场景中的目标。

目标检测的独特之处在于它能够识别目标并精确定位其位置。其他 计算机视觉任务 侧重于不同的目标。

例如,图像分类为整个图像分配一个标签。同时,图像分割提供了对不同元素的像素级理解。另一方面,目标检测将识别与定位相结合。这使得它对于实时计算多个目标等任务特别有用。

__wf_reserved_inherit
图 2. 比较计算机视觉任务。

目标识别与目标检测

当您探索各种计算机视觉术语时,您可能会觉得目标识别和目标检测是可以互换的,但它们有不同的用途。理解差异的一个好方法是查看人脸检测和人脸识别。

人脸检测是一种目标检测。它识别图像中是否存在人脸,并使用边界框标记其位置。它回答了问题“人脸在图像中的什么位置?”这项技术通常用于自动对焦人脸的智能手机相机或检测人员是否存在的安全摄像头。

另一方面,人脸识别是一种目标识别形式。它不仅仅是检测人脸;它通过分析独特的特征并将其与数据库进行比较来识别人脸是谁。它回答了问题“这个人是谁?”这是使用 Face ID 解锁手机或验证身份的机场安全系统背后的技术。

简而言之,目标检测是查找和定位目标,而目标识别是分类和识别目标。 

__wf_reserved_inherit
图 3. 目标检测与目标识别对比。图片来源:作者。

许多目标检测模型,如 YOLO11,被设计为支持人脸检测,但不支持人脸识别。YOLO11 可以有效地识别图像中是否存在人脸,并绘制边界框将其框出,这使其适用于监控系统、人群监控和自动照片标记等应用。但是,它无法确定人脸是谁的。YOLO11 可以与专门训练用于人脸识别的模型(如 Facenet 或 DeepFace)集成,以在单个系统中实现检测和识别。

了解目标检测的工作原理

在我们讨论目标检测的工作原理之前,让我们先仔细看看计算机如何分析图像。计算机不会像我们一样看待图像,而是将其分解成称为像素的微小正方形网格。每个像素都包含颜色和亮度信息,计算机可以处理这些信息来解释视觉数据。

为了理解这些像素,算法会根据形状、颜色以及它们彼此之间的距离将它们分组为有意义的区域。诸如 YOLO11 之类的目标检测模型可以识别这些像素组中的模式或特征。 

例如,自动驾驶汽车不会像我们一样看到行人,而是检测与行人特征相匹配的形状和图案。这些模型依赖于使用标记的 图像数据集 进行广泛的训练,从而使它们能够学习汽车、交通标志和人等物体的独特特征。

典型的目标检测模型有三个主要部分:主干(backbone)、颈部(neck)和头部(head)。主干从图像中提取重要特征。颈部处理和优化这些特征,而头部负责预测对象位置并对其进行分类。

优化检测结果并呈现

一旦进行了初始检测,就会应用后处理技术来提高准确性并过滤掉冗余预测。例如,删除重叠的边界框,确保仅保留最相关的检测结果。此外,还会为每个检测到的对象分配置信度分数(表示模型对检测到的对象属于某个类别的确定程度的数值),以指示模型对其预测的确定性。

最后,输出结果会呈现出来,并在检测到的对象周围绘制边界框,以及它们预测的类别标签和置信度分数。然后,这些结果可用于实际应用。

常用的目标检测模型 

如今,有许多计算机视觉模型可供选择,其中最受欢迎的是 Ultralytics YOLO 模型。它们以其速度、准确性和多功能性而闻名。多年来,这些模型变得更快、更精确,并且能够处理更广泛的任务。Ultralytics YOLOv5 的发布通过 PyTorch 等框架简化了部署,使更多人能够使用先进的视觉 AI,而无需深入的技术专业知识。

在此基础上,Ultralytics YOLOv8 引入了新的功能,如实例分割、姿态估计和图像分类。现在,YOLO11 通过在多个任务中提供更好的性能,将事情推向了更进一步。与 YOLOv8m 相比,YOLO11m 的参数减少了 22%,但在 COCO 数据集上实现了更高的平均精度均值 (mAP)。简单来说,YOLO11 能够以更少的资源识别物体,同时具有更高的精度,使其更快、更可靠。

无论您是 AI 专家还是刚刚入门,YOLO11 都为计算机视觉应用提供了一个强大而用户友好的解决方案。

用于目标检测的模型自定义训练

训练视觉 AI 模型包括帮助计算机识别和理解图像和视频。然而,训练可能是一个耗时的过程。迁移学习不是从头开始,而是通过使用已经识别常见模式的预训练模型来加速这一过程。

例如,YOLO11 已经在 COCO 数据集 上进行了训练,该数据集包含各种日常物体。这个预训练模型可以进一步进行自定义训练,以检测原始数据集中可能未包含的特定物体。 

自定义训练 YOLO11,您需要一个带标签的数据集,其中包含您要检测的物体的图像。例如,如果您想构建一个模型来识别杂货店中不同类型的水果,您可以创建一个数据集,其中包含苹果、香蕉、橙子等带标签的图像。准备好数据集后,可以训练 YOLO11,调整批量大小、学习率和 epoch 等参数以优化性能。

通过这种方法,企业可以训练 YOLO11 来检测任何东西,从制造中的缺陷零件到保护项目中的野生动物物种,从而根据其确切需求定制模型。

目标检测的应用

接下来,让我们看看目标检测的一些实际应用案例,以及它如何改变各个行业。

自动驾驶的危险检测

自动驾驶汽车 使用诸如目标检测之类的计算机视觉任务来安全导航并避开障碍物。这项技术帮助他们识别行人、其他车辆、坑洼和道路危险,从而更好地了解周围环境。他们可以通过不断分析周围环境来快速做出决策并在交通中安全行驶。

__wf_reserved_inherit
图 4. 使用目标检测与 YOLO11 检测坑洼的示例。

医疗保健中的医学影像分析

医学影像技术,如 X 射线、MRI、CT 扫描和超声波,可以创建人体的高度详细图像,以帮助诊断和治疗疾病。这些扫描会产生大量数据,医生(如放射科医生和病理学家)必须仔细分析这些数据才能检测到疾病。但是,详细审查每张图像可能非常耗时,并且由于疲劳或时间限制,人类专家有时可能会遗漏细节。

诸如 YOLO11 之类的目标检测模型可以通过高精度地自动识别医学扫描中的关键特征(如器官、肿瘤或异常情况)来提供帮助。自定义训练的模型可以使用边界框突出显示关注区域,从而帮助医生更快地关注潜在问题。这减少了工作量,提高了效率,并提供了快速的见解。

__wf_reserved_inherit
图 5. 使用 YOLO11 分析医学图像。

利用人员和异常检测提高安全性

目标跟踪是 YOLO11 支持的一项计算机视觉任务,可实现实时监控并增强安全性。它以目标检测为基础,通过识别目标并持续跟踪其在帧间的移动来实现。这项技术广泛应用于监控系统中,以提高各种环境中的安全性。

例如,在学校和日托中心,目标跟踪可以帮助监控儿童,防止他们走失。在安全应用中,它在检测限制区域内的入侵者、监控人群是否过度拥挤或存在可疑行为,以及在检测到未经授权的活动时发送实时警报方面发挥着关键作用。通过跟踪目标的移动,基于 YOLO11 的跟踪系统可以增强安全性、自动化监控,并能够更快地响应潜在威胁。

目标检测的优点和缺点

以下是目标检测可以为各个行业带来的一些主要优势:

  • 自动化: 目标检测可以帮助减少在监控闭路电视录像等任务中对人工监督的需求。
  • 与其他 AI 模型协同工作: 它可以与面部识别、动作识别和跟踪系统集成,以提高准确性和功能性。
  • 实时处理: 许多目标检测模型(如 YOLO11)都非常快速高效,使其成为需要即时结果的实时应用的理想选择。 

虽然这些优势突出了目标检测如何影响不同的用例,但考虑其实现过程中涉及的挑战也很重要。以下是一些主要挑战:

  • 数据隐私 视觉数据的使用,尤其是在监控或医疗保健等敏感领域,可能会引发隐私问题和安全问题。
  • 遮挡: 目标检测中的遮挡发生在目标被部分阻挡或隐藏时,这使得模型难以准确地检测和分类它们。
  • 计算成本高: 高性能模型通常需要强大的 GPU(图形处理单元)进行处理,从而导致实时部署成本高昂。

主要要点

目标检测是计算机视觉中一项具有变革意义的工具,它可以帮助机器检测和定位图像和视频中的目标。它被应用于从自动驾驶汽车到医疗保健等各个领域,使任务更轻松、更安全、更高效。借助 YOLO11 等较新的模型,企业可以轻松创建自定义目标检测模型,以创建专门的计算机视觉应用。 

尽管存在一些挑战,例如隐私问题和物体被遮挡,但目标检测仍然是一项可靠的技术。它能够自动执行任务、实时处理视觉数据以及与其他视觉人工智能工具集成,使其成为前沿创新技术的重要组成部分。

要了解更多信息,请访问我们的 GitHub 仓库并与我们的社区互动。在我们的解决方案页面上,探索自动驾驶汽车中的人工智能农业中的计算机视觉等领域的创新。查看我们的 YOLO 许可选项,让您的视觉人工智能项目栩栩如生。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板