2025 年的物体检测：深度挖掘 |Ultralytics

许多行业正在迅速将人工智能 (AI) 解决方案集成到其运营中。在当今可用的众多 AI 技术中，计算机视觉是最受欢迎的技术之一。计算机视觉是 AI 的一个分支，它帮助计算机像人类一样看到和理解图像和视频的内容。它使机器能够识别物体、识别模式并理解它们所看到的内容。

据估计，到 2032 年，全球计算机视觉市场价值将增长到 1757.2 亿美元。计算机视觉包含各种任务，使视觉 AI 系统能够分析和解释视觉数据。目标检测是计算机视觉最广泛使用和最重要的任务之一。

物体检测主要是对视觉数据中的物体进行定位和分类。例如，如果你向计算机展示一头牛的图像，它就能detect 这头牛，并在其周围画出一个边界框。这种能力在动物监控、自动驾驶汽车和监控等实际应用中非常有用。

那么，如何进行物体检测呢？一种方法是通过计算机视觉模型。例如 Ultralytics YOLO11是一种计算机视觉模型，可支持物体检测等计算机视觉任务。

在本指南中，我们将探讨对象检测及其工作原理。我们还将讨论对象检测和Ultralytics YOLO11 在现实世界中的一些应用。

__wf_reserved_inherit — 图 1.使用YOLO11的物体检测支持来监控牛群。

什么是目标检测？

目标检测是一种计算机视觉任务，用于识别和定位图像或视频中的目标。它回答了两个关键问题：“图像中有哪些目标？”以及“它们位于哪里？”

物体检测过程包括两个关键步骤。第一个步骤是物体分类，让系统能够识别和标记物体，例如根据学习到的模式识别猫、汽车或人。第二个步骤是定位，通过在物体周围画一个边界框来确定物体的位置，指出物体在图像中出现的位置。通过这些步骤，机器可以detect 并理解场景中的物体。

目标检测的独特之处在于它能够识别目标并精确定位其位置。其他计算机视觉任务侧重于不同的目标。

例如，图像分类为整个图像分配一个标签。同时，图像分割提供了对不同元素的像素级理解。另一方面，目标检测将识别与定位相结合。这使得它对于实时计算多个目标等任务特别有用。

目标识别与目标检测

当您探索各种计算机视觉术语时，您可能会觉得目标识别和目标检测是可以互换的，但它们有不同的用途。理解差异的一个好方法是查看人脸检测和人脸识别。

人脸检测是物体检测的一种。它能识别图像中是否存在人脸，并使用边界框标记其位置。它能回答 "图像中的人脸在哪里？"的问题。这种技术通常用于自动对焦人脸的智能手机摄像头或用于detect 是否有人出现的安防摄像头。

而人脸识别则是一种物体识别。它不只是detect 一张脸，而是通过分析独特的特征并将其与数据库进行比较，从而识别出这是谁的脸。它能回答 "这个人是谁 "的问题。这就是使用 Face ID 解锁手机或验证身份的机场安检系统背后的技术。

简而言之，目标检测是查找和定位目标，而目标识别是分类和识别目标。

许多物体检测模型（如YOLO11）都是为支持人脸检测而设计的，但并不支持人脸识别。YOLO11 可以有效地识别图像中的人脸，并在其周围画出一个边界框，因此在监控系统、人群监控和自动照片标记等应用中非常有用。但是，它无法确定是谁的脸。YOLO11 可以与专门为人脸识别训练的模型（如 Facenet 或 DeepFace）集成，从而在单个系统中实现检测和识别。

了解目标检测的工作原理

在我们讨论目标检测的工作原理之前，让我们先仔细看看计算机如何分析图像。计算机不会像我们一样看待图像，而是将其分解成称为像素的微小正方形网格。每个像素都包含颜色和亮度信息，计算机可以处理这些信息来解释视觉数据。

为了让这些像素变得更有意义，算法会根据形状、颜色以及像素之间的距离将它们归类为有意义的区域。物体检测模型（如YOLO11）可以识别这些像素组中的模式或特征。

例如，自动驾驶汽车不会像我们一样看到行人，而是检测与行人特征相匹配的形状和图案。这些模型依赖于使用标记的图像数据集进行广泛的训练，从而使它们能够学习汽车、交通标志和人等物体的独特特征。

典型的目标检测模型有三个主要部分：主干（backbone）、颈部（neck）和头部（head）。主干从图像中提取重要特征。颈部处理和优化这些特征，而头部负责预测对象位置并对其进行分类。

优化检测结果并呈现

一旦进行了初始检测，就会应用后处理技术来提高准确性并过滤掉冗余预测。例如，删除重叠的边界框，确保仅保留最相关的检测结果。此外，还会为每个检测到的对象分配置信度分数（表示模型对检测到的对象属于某个类别的确定程度的数值），以指示模型对其预测的确定性。

最后，输出结果会呈现出来，并在检测到的对象周围绘制边界框，以及它们预测的类别标签和置信度分数。然后，这些结果可用于实际应用。

常用的目标检测模型

如今，有许多计算机视觉模型可供使用，其中最受欢迎的是Ultralytics YOLO 模型。它们以速度快、精度高、用途广而著称。多年来，这些模型变得更快、更精确，能够处理更广泛的任务。新发布的 Ultralytics YOLOv5的发布使PyTorch 等框架的部署变得更加容易，让更多人无需深厚的专业技术知识就能使用先进的视觉人工智能。

以此为基础 Ultralytics YOLOv8推出了实例分割、姿势估计和图像分类等新功能。现在，YOLO11 更进一步，在多项任务中实现了更好的性能。与YOLOv8m 相比，YOLO11m 减少了 22% 的参数，在COCO 数据集上实现了更高的平均精度mAP)。简单地说，YOLO11 能以更高的精度识别物体，同时使用更少的资源，因此速度更快、更可靠。

无论您是人工智能专家还是刚刚入门，YOLO11 都能为计算机视觉应用提供功能强大且用户友好的解决方案。

用于目标检测的模型自定义训练

训练视觉 AI 模型包括帮助计算机识别和理解图像和视频。然而，训练可能是一个耗时的过程。迁移学习不是从头开始，而是通过使用已经识别常见模式的预训练模型来加速这一过程。

例如，YOLO11 已经在COCO 数据集上进行过训练，该数据集包含各种日常物品。这个预先训练好的模型可以进一步定制训练，以detect 原始数据集中可能不包含的特定物体。

要定制训练 YOLO11，您需要一个包含您要detect的对象图像的标注数据集。例如，如果您想建立一个模型来识别杂货店中不同类型的水果，您就需要创建一个包含苹果、香蕉、橘子等标签图像的数据集。准备好数据集后，就可以对YOLO11 进行训练，调整批量大小、学习率和历时等参数以优化性能。

通过这种方法，企业可以训练YOLO11 detect 任何东西，从制造过程中的缺陷部件到保护项目中的野生动物物种，从而根据自己的确切需求量身定制模型。

目标检测的应用

接下来，让我们看看目标检测的一些实际应用案例，以及它如何改变各个行业。

自动驾驶的危险检测

自动驾驶汽车使用诸如目标检测之类的计算机视觉任务来安全导航并避开障碍物。这项技术帮助他们识别行人、其他车辆、坑洼和道路危险，从而更好地了解周围环境。他们可以通过不断分析周围环境来快速做出决策并在交通中安全行驶。

医疗保健中的医学影像分析

X 射线、核磁共振成像、CT 扫描和超声波等医学成像技术可以生成非常详细的人体图像，帮助诊断和治疗疾病。这些扫描会产生大量数据，放射科医生和病理学家等医生必须对这些数据进行仔细分析，以detect 疾病。然而，详细查看每张图像可能会耗费大量时间，而且人类专家有时可能会因疲劳或时间限制而遗漏细节。

像YOLO11 这样的物体检测模型可以通过高精度自动识别医学扫描中的关键特征，如器官、肿瘤或异常。定制训练的模型可以通过边界框突出显示需要关注的区域，帮助医生更快地关注潜在问题。这可以减少工作量、提高效率并提供快速的洞察力。

利用人员和异常检测提高安全性

物体跟踪是YOLO11 支持的一项计算机视觉任务，可实现实时监控和安全增强。它建立在物体检测的基础上，通过识别物体并持续跟踪其跨帧运动。这项技术被广泛应用于监控系统，以提高各种环境下的安全性。

例如，在学校和日托中心，物体跟踪可以帮助监控儿童，防止他们走失。在安全应用中，它在检测禁区入侵者、监控人群拥挤或可疑行为以及在检测到未经授权的活动时发送实时警报方面发挥着关键作用。通过track 移动中的物体，YOLO11跟踪系统可以提高安全性，实现自动化监控，并对潜在威胁做出更快的反应。

目标检测的优点和缺点

以下是目标检测可以为各个行业带来的一些主要优势：

自动化： 目标检测可以帮助减少在监控闭路电视录像等任务中对人工监督的需求。
‍
与其他 AI 模型协同工作： 它可以与面部识别、动作识别和跟踪系统集成，以提高准确性和功能性。
‍
实时处理：许多物体检测模型（如YOLO11）都快速高效，非常适合需要即时结果的实时应用。

虽然这些优势突出了目标检测如何影响不同的用例，但考虑其实现过程中涉及的挑战也很重要。以下是一些主要挑战：

数据隐私：视觉数据的使用，尤其是在监控或医疗保健等敏感领域，可能会引发隐私问题和安全问题。

遮挡：物体检测中的遮挡是指物体被部分遮挡或隐藏起来，使模型难以对其进行准确detect 和classify 。

计算成本高： 高性能模型通常需要强大的 GPU（图形处理单元）进行处理，从而导致实时部署成本高昂。

主要要点

物体检测是计算机视觉领域一种改变游戏规则的工具，可帮助机器detect 和定位图像和视频中的物体。它被用于从自动驾驶汽车到医疗保健的各个领域，使任务变得更简单、更安全、更高效。利用YOLO11 等新型号，企业可以轻松创建自定义对象检测模型，从而创建专门的计算机视觉应用。

尽管存在一些挑战，例如隐私问题和物体被遮挡，但目标检测仍然是一项可靠的技术。它能够自动执行任务、实时处理视觉数据以及与其他视觉人工智能工具集成，使其成为前沿创新技术的重要组成部分。

要了解更多信息，请访问我们的GitHub 存储库并与我们的社区互动。在我们的解决方案页面，探索自动驾驶汽车中的人工智能和农业中的计算机视觉等领域的创新。查看我们的 yolo 许可选项，将您的视觉 AI 项目付诸实践。🚀

2025 年目标检测深度解析指南