探索使用 Ultralytics YOLO11 进行小目标检测
了解 Ultralytics YOLO11 如何在监控和机器人等实际应用中实现快速、准确的小目标检测。

集成了视觉 AI 的无人机可以在地面上空数百米飞行,但仍需识别出在视频画面中仅占几个像素的人。事实上,在机器人技术、监控和遥感等应用中,系统必须识别图像中极小的目标,这是一个常见的挑战。
但传统的 目标检测 模型在处理这类任务时可能会感到吃力。图像和视频中的小目标所提供的视觉信息非常有限。简而言之,当模型查看它们时,没有太多的细节可供学习或识别。
从底层原理来看,这些模型通常依赖于基于卷积神经网络 (CNN) 的架构。图像穿过网络的各个层,并被转换为特征图或简化后的表示,从而突出显示相关模式,而不是原始像素。
随着图像在网络中不断深入,这些特征图会变得越来越小。这虽然提高了计算速度,但也意味着精细的细节可能会丢失。
对于微小目标而言,这些细节至关重要。一旦细节丢失,计算机视觉模型就可能难以检测到目标,这会导致边界框(bounding boxes)不够准确或出现不一致。
实时端到端计算机视觉系统使这一问题变得更加棘手。高分辨率图像有助于保留细节,但它们会降低推理速度并需要更高的 GPU 算力。低分辨率虽然运行速度更快,但小目标会变得更难检测。
这成为了速度、准确性和硬件限制之间的一种持续平衡。得益于近期技术的进步,诸如 Ultralytics YOLO11 和即将推出的 Ultralytics YOLO26 等计算机视觉模型,旨在更有效地管理这种权衡。

图 1. 使用 YOLO11 检测航拍图像中的小目标 (来源)
在本文中,我们将探讨为什么小目标检测如此困难,以及 YOLO11 如何让它变得更简单。让我们开始吧!
Link to this section什么是小目标检测,为什么它很重要?#
小目标检测是人工智能的一个分支——计算机视觉中的一项任务,重点是识别和定位在图像中占据极小部分的目标。这些目标在图像中通常仅由少量像素表示,而像素是数字图像的最小单位。这使得它们比更大、更清晰的目标(通常包含更多像素)更难被检测到。
例如,航拍图像中的车辆、工厂车间的工具,或广角监控摄像头拍摄到的人,都可能表现为图像中的小目标。检测它们非常重要,因为它们往往携带关键信息,并且许多现实世界的应用(如监控)都需要依靠这些检测结果才能正常工作。
如果漏掉小目标,系统性能和决策能力可能会受到影响。无人机 (UAV) 监控就是一个很好的例子,如果遗漏了地面上移动的小目标,可能会影响导航或跟踪的准确性。
Link to this section与检测小目标相关的挑战#
早期的系统使用手工特征和传统的计算机视觉方法,这些方法在繁忙或多变的场景中表现不佳。即使在今天,尽管深度学习模型的表现要好得多,但当小目标仅占图像的一小部分时,检测它们仍然很困难。
接下来,让我们看看在检测小目标时,不同现实场景中会出现的一些常见挑战。
Link to this section尺寸、像素与信息丢失#
小目标包含的像素非常少,这限制了模型在特征提取等阶段可以学习到的视觉细节数量。结果就是,边缘、形状和纹理等模式更难被检测到,从而使小目标更容易融入背景中。
当图像通过神经网络的 卷积层 时,像素中的视觉信息会逐渐被压缩成特征图。这有助于保持模型的高效性,但也意味着精细细节会逐渐消失。

图 2. 特征图代表图像中的视觉模式 (来源)
对于小目标而言,重要线索可能会在检测网络有机会处理之前就消失了。发生这种情况时,定位会变得不可靠,边界框(bounding boxes)可能会偏移、重叠,甚至完全错过目标物体。
Link to this section遮挡、尺度变化与背景信息#
尺寸相关的挑战通常也由遮挡引起。当目标(特别是较小的目标)被场景中的其他物体部分隐藏时,就会发生遮挡。
这减少了目标的可见区域,从而限制了目标检测器可利用的信息。即使是轻微的遮挡也会干扰检测网络,尤其是在结合低分辨率输入的情况下。在 VisDrone 等无人机数据集中可以看到一个有趣的例子,行、自行车或车辆可能会被建筑物、树木或其他移动物体部分遮挡。

图 3. 来自 VisDrone 数据集的显示小目标的示例 (来源)
同样,由于距离和摄像机位置的不同,同一目标会显得非常小或相对较大,尺度变化也带来了另一层困难。尽管有这些障碍,检测算法仍必须在不同尺度下识别出这些小目标,且不能损失准确性。
背景信息在检测中也起着重要作用。例如,大目标通常出现在清晰的周围环境中,这提供了有用的视觉线索。另一方面,小目标通常缺乏这种背景信息,这使得模式识别变得更加困难。
Link to this section小目标检测中的隐形指标问题#
常见的评估指标,如 交并比 (IoU),用于衡量预测的边界框与真实标注框(ground-truth box)的重叠程度。虽然 IoU 对于大目标很有效,但它在处理小目标时的表现却大不相同。
小目标仅占据几个像素,因此预测框的微小偏移就可能产生较大的比例误差,并显著降低 IoU 分数。这意味着,即使目标在图像中可见,小目标也常常无法达到用于判定预测正确的标准 IoU 阈值。
结果就是,定位错误更容易被分类为假阳性(false positives)或假阴性(false negatives)。这些局限性促使研究人员重新思考目标检测系统应如何评估和处理这些难以检测的小目标。
Link to this section多尺度特征:实时小目标检测的关键#
随着研究人员致力于改进小目标检测,很明显,跨多个尺度保留和表示视觉信息至关重要。这一见解在近期的 arXiv 研究以及 IEEE 国际会议和欧洲计算机视觉大会 (ECCV) 等场所发表的论文中得到了呼应。
随着图像在神经网络中深入,小目标可能会丢失细节或完全消失,这就是为什么现代计算机视觉模型(如 YOLO11)非常注重更好的特征提取。接下来,让我们逐步了解特征图和特征金字塔网络的核心概念,以便更好地理解它们。
Link to this section特征图与尺度表示#
当输入图像(如遥感图像)进入神经网络时,它会被逐渐转换为特征图。这是图像的简化表示,突出了边缘、形状和纹理等视觉模式。
随着网络层数加深,这些特征图在空间尺寸上会变小。这种缩减有助于模型高效运行并专注于高级信息。然而,缩减和深层的特征图也会减少空间细节。

图 4. 特征提取是小目标检测的关键。(来源)
虽然大目标保留了足够的视觉信息以进行准确检测,但小目标在经过几层网络后就可能丢失关键细节。发生这种情况时,模型可能很难识别出小目标的存在。这也是深度目标检测模型中漏掉小目标的主要原因之一。
Link to this section特征金字塔网络与多尺度学习#
特征金字塔网络(通常称为 FPN)的引入旨在解决空间细节丢失的问题。它们作为支持模块,结合了来自多个层的信息,使模型能够更有效地检测小目标。这一过程也称为特征聚合和特征融合。
浅层提供精细的空间细节,而深层增加语义背景,从而实现有效的多尺度特征学习。与仅简单放大特征图的简单上采样不同,FPN 保留了有意义的信息并改善了小目标检测。
现代方法利用自适应特征融合和上下文感知设计,在这一理念基础上进一步加强了对小目标的检测。换句话说,FPN 帮助模型同时看到全局和细微的细节。当目标较小时,这种优化至关重要。
Link to this section目标检测模型如何演变以处理小目标#
以下是目标检测模型如何随时间演进和进步,以便更好地检测不同尺寸(包括极小尺寸)目标的简要回顾:
- 早期检测方法: 早期目标检测方法依赖于手动设计的特征和植根于经典图像处理的基于规则的算法。由于这些特征是固定的,其性能在处理不同图像时会下降。
- 机器学习和深度学习的引入: 机器学习和深度学习的采用标志着目标检测研究的重大转变。神经网络不再依赖预定义的规则,而是直接从训练数据中学习视觉表示,从而提高了在不同目标尺寸和场景下的适应性。
- 卷积网络: 这些神经网络学习识别图像中的模式。每一层都会提取不同的细节,从简单的边缘和颜色开始,接着是形状,最后是完整的物体,这使它们成为现代计算机视觉不可或缺的一部分。
- 两阶段目标检测器: 由 Girshick 和 Ren 引入的两阶段检测器(如 Faster R-CNN)首先生成候选区域,然后再对其进行分类。这种方法提高了小目标的准确性,但增加了计算成本并降低了实时性能。
- 一阶段目标检测器: 一阶段检测器(如 SSD (Single-Shot Detector) 和 YOLO (You Only Look Once) 系列,包括 YOLOv3、Ultralytics YOLOv5 以及后来的 Ultralytics YOLOv8)在单次处理中完成检测。这种设计在保持竞争力的同时,显著提高了推理速度。
- 最新的最先进模型: 更新的目标检测模型更加注重实时性能和边缘部署。最近的 Ultralytics YOLO 模型版本,如 Ultralytics YOLO11 和即将推出的 Ultralytics YOLO26,旨在平衡高准确性和低延迟推理,使其非常适合在算力受限的设备上检测各种尺寸的目标(包括小目标)。
Link to this section在小目标检测场景中使用 YOLO11#
现在我们对小目标检测的工作原理有了更好的了解,让我们看看 YOLO11 可以应用的几个现实场景。
Link to this section无人机与航拍成像#
想象一下无人机在繁忙的城市街道上空飞行。从那个高度看,汽车、自行车甚至人都会缩小到屏幕上只有几个像素的大小。
无人机和航拍成像模块经常捕捉此类场景,其中感兴趣的目标非常小且被杂乱的背景包围,这使得计算机视觉模型很难进行检测。
在这些类型的场景中,YOLO11 可以是一个理想的模型选择。例如,配备 YOLO11 等模型的无人机可以实时监控交通,检测在场景中移动的车辆、骑行者和行人,即使每个目标仅占图像的一小部分。这使得在交通管理、公共安全或城市规划等应用中能够实现更快的决策和更准确的洞察。
Link to this section机器人技术与自动化#
机器人通常用于准确性和时效性至关重要的环境中。在仓库、工厂和农场等场所,机器人可能需要识别非常小的物体(例如装配线上的零件、包裹上的标签或田间的小芽),并迅速作出反应。
检测这种尺寸的目标可能很复杂,特别是当它们在摄像机画面中仅显示为几个像素,或者被其他物体部分遮挡时。错过这些小细节可能会减慢自动化进程,或影响机器人完成任务的能力。
YOLO11 在这些情况下可以大显身手。其改进的特征提取和快速推理能力使机器人能够实时检测小目标并立即采取行动。
YOLO11 还支持实例分割,这可以帮助机器人更精确地理解物体边界和抓取点,而不仅仅是定位常规的边界框。例如,集成 YOLO11 的机械臂可以发现传送带上的小部件,分割出它们的精确形状,并在它们移出范围之前将其拾取,从而帮助系统保持高效和可靠。
Link to this section是什么让 YOLO11 在小目标检测中表现出色#
如今有这么多计算机视觉模型可供选择,你可能想知道是什么让 Ultralytics YOLO11 脱颖而出。
以下是 Ultralytics YOLO11 成为检测小目标应用场景绝佳选择的几个原因:
- 更好的特征提取:YOLO11 使用了改进的主干(backbone)和颈部(neck)架构来增强特征提取,从而实现更精确的目标检测。
- 生态系统与易用性:Ultralytics Python package 是一个提供内置函数的库,用于加载、训练、验证和部署像 YOLO11 这样的模型。由于这些工作流程只需要几行代码,团队可以快速尝试并微调模型以进行小目标检测。
- 针对边缘部署优化:YOLO11 可以在 NVIDIA Jetson、Raspberry Pi 和工业摄像系统等边缘设备上高效运行。简而言之,它能直接在设备上实现实时视觉 AI 任务。
Link to this section使用 YOLO11 检测小目标时的实用策略#
除了使用 YOLO11 这样的模型外,你准备标注、整理整个数据集以及模型训练过程的方式,也会对检测性能产生重大影响。
以下是需要重点关注的内容概述:
- 适当的数据增强: 轻量级数据增强(例如缩放或裁剪)可以帮助模型泛化到新图像。然而,过度的大规模增强可能会扭曲或消除小目标,使模型更难学习。
- 分析故障案例: 分析模型在何处遗漏或误识别物体,有助于建立基准并揭示问题是源于数据集、特征提取过程中的信息丢失,还是需要调整训练设置。
- 数据集构成: 你的数据集应包含足够多的小目标示例,以便模型能够学习到有意义的模式,并且应保持平衡,以便在训练过程中大目标不会掩盖小目标。
Link to this section关键要点#
小目标检测非常困难,因为当图像在计算机视觉模型中处理时,小目标会丢失细节。YOLO11 改进了这些细节的保留方式,在不牺牲实时性能的情况下使小目标检测更加可靠。这种平衡使 YOLO11 能够在现实世界的应用中支持准确且高效的检测。
加入我们日益壮大的 社区!浏览我们的 GitHub 仓库 以了解更多 AI 知识。通过访问我们的解决方案页面,探索诸如 零售计算机视觉 和 汽车 AI 等创新技术。想要即刻开始构建你的计算机视觉项目,请查阅我们的 许可选项。






