了解如何通过数据质量、数据增强、训练策略、评估和部署等方面的实践技巧,提升模型在小目标上的 mAP。
了解如何通过数据质量、数据增强、训练策略、评估和部署等方面的实践技巧,提升模型在小目标上的 mAP。
随着人工智能(AI)、机器学习和计算机视觉的普及度不断提高,目标检测系统正被广泛应用于各个领域,从智能交通摄像头到无人机,再到零售分析工具。通常,这些系统需要检测各种大小的物体,无论是靠近摄像头的大型卡车,还是远处微小的行人。
通常,识别大型且清晰可见的物体更为直接。相比之下,detect小型物体更具挑战性。
当物体在图像中只占据极小一部分时,可供处理的视觉信息非常少。交通流中远处的行人或从航拍视图捕获的小型车辆可能只包含几个像素,但这些像素却能承载关键信息。
Ultralytics YOLO 模型等计算机视觉模型依赖视觉模式来识别物体,当这些模式有限或不清晰时,性能会下降。重要细节可能在处理过程中丢失,使预测对定位误差更加敏感。即使边界框的轻微偏移也可能将正确的 detect 变成遗漏。
当我们审视模型性能时,这一差距变得清晰。大多数 detect 和 segment 模型能很好地处理中大型对象,但小对象通常会降低整体精度。
深度学习性能通常使用平均精度均值,即 mAP 来衡量。该指标反映了检测的准确性以及预测框与真实物体对齐的程度。
它结合了精确率(precision),即正确预测的物体数量,和召回率(recall),即成功检测到的实际物体数量,并在不同的置信度水平和交并比(Intersection over Union,简称 IoU,一个衡量预测边界框与真实边界框重叠程度的指标)阈值下进行综合考量。
此前,我们探讨了小目标检测及其为何是计算机视觉模型面临的难题。本文将在此基础上,重点介绍在涉及小目标时如何提升 mAP。让我们开始吧!
在涉及目标检测器的应用中,小目标是根据其在图像中所占空间大小来定义的,而不一定根据人眼看起来有多小。如果它只占据图像的一小部分,则包含的视觉信息非常少,这使得计算机视觉算法难以准确 detect。

由于可用的像素较少,边缘、形状和纹理等重要细节可能会模糊不清或容易丢失。当图像经模型处理时,它会被调整大小并简化,以突出有用模式。
虽然这有助于模型理解整体场景,但它也会进一步减少精细细节。对于小目标而言,这些细节通常对于正确 detect 至关重要。
当审视 评估指标 时,这些挑战变得更加明显。小物体对定位误差特别敏感。即使是轻微错位的边界框,也可能低于所需的交并比 (IoU) 阈值。
当这种情况发生时,一个看起来合理的预测可能会被算作不正确。这会降低 precision 和 recall,最终降低平均精度均值,即 mAP。
由于这些因素紧密相关,提升性能通常需要考虑整个系统。这意味着要精心平衡图像分辨率、特征提取、模型设计和评估设置,以便更好地保留和解释微小的视觉细节。
在小目标 detect 方面,数据集的质量通常对性能影响最大。小目标只占据图像的一小部分,这意味着模型可供学习的视觉信息非常少。因此,训练数据变得尤为重要。如果数据集不包含足够清晰和有代表性的样本,目标 detect 模型将难以识别一致的模式。
适用于小目标 detect 的数据集通常包含高分辨率图像、小目标频繁出现以及一致的视觉条件。虽然像 COCO dataset 这样的通用数据集是很好的起点,但它们通常不匹配特定真实世界用例的尺度、密度或上下文。在这种情况下,收集领域特定的训练数据对于提高模型性能变得至关重要。
标注质量也起着关键作用。标注通过指定模型学习预测的正确对象标签和边界框位置来建立真实值。
对于小目标,边界框必须仔细且一致地绘制。即使边界框放置的微小差异也会显著影响定位精度,因为小目标对像素级偏移高度敏感。
质量差或不一致的标注会显著降低 mAP。如果目标被错误标记,模型会学习到错误的模式,这可能增加误报。
如果图像中出现目标但在真实标注中缺失,那么在评估期间,正确的 detect 可能会被计为误报。这两种情况都会降低整体性能。
有趣的是,最近的研究表明,在标准基准测试中,小目标的平均 AP 通常保持在 20% 到 40% 之间,这显著低于大目标。这一差距凸显了数据集设计和标注一致性在整体 detect 精度中的重要性。
在更好地理解数据集质量和标注一致性的重要性后,我们来探讨目标detect模型如何能更有效地从现有数据中学习。即使收集额外图像困难或昂贵,仍有办法通过更好地利用现有数据来提高性能。
最实用的方法之一是 数据增强。它在小目标 detect 中扮演着尤为重要的角色,因为小目标为模型提供了更少的视觉线索。通过在训练期间引入受控变体,增强有助于模型更好地泛化,而无需收集新数据。
有效的数据增强侧重于保持小目标清晰可见。受控调整大小、轻度裁剪和图像平铺等技术可以使小目标更加突出,同时保留其形状和外观。目标是帮助模型更频繁地在略微不同的条件下看到小目标,而不改变它们在真实情况下的外观。
然而,增强需要谨慎应用。一些变换可能会降低小目标的可见性,或以在真实数据中不太可能发生的方式改变它们的外观。当这种情况发生时,模型可能难以学习准确的目标边界。
另一种越来越流行的数据增强类型是利用生成式 AI 创建合成训练数据。团队现在无需依赖手动收集和标注的图像,即可生成模拟特定环境、目标大小、光照条件和背景变化的真实场景。

这种方法对于小目标检测特别有用,因为在现实世界中很难持续捕获小目标样本。通过控制小目标在合成图像中的出现方式,例如调整其尺度、密度和位置,可以使模型接触到更广泛的训练场景。
当与真实数据谨慎结合时,合成数据增强可以提高模型鲁棒性,降低数据采集成本,并支持更具针对性的性能提升。
除了数据集质量和标注一致性之外,模型训练选择也对小目标 detect 性能具有强大影响。
以下是一些值得考虑的关键训练策略:
虽然您可以使用通用目标检测模型来处理小目标任务,但也有专门设计用于改进小目标检测的模型架构。例如,Ultralytics YOLOv8模型有P2模型变体,它们经过优化以保留精细的空间细节。
YOLOv8 通过在图像深入网络时逐渐缩小图像,以多尺度处理它们。这有助于模型理解整体场景,但也会减少精细细节。
当物体已经非常小时,重要的视觉信息在此过程中可能会丢失。Ultralytics YOLOv8 的 P2 变体通过在其特征金字塔中使用步长为2的方式解决了这个问题。
特征金字塔是模型中以多个内部分辨率分析图像的部分,以便它可以detect不同大小的目标。步长为2时,图像在此阶段被更缓慢地缩小,从而保留更多的原始像素级细节。
由于保留了更多的空间细节,小物体在网络内部能保留更多可见结构。这使得模型更容易定位和 detect 仅占据少量像素的物体,从而有助于提高小物体的 mAP。
虽然平均精度(AP)总结了模型的整体性能,但它并不总是能显示模型处理不同大小物体时的效果。对于小物体,性能通常受限于定位精度而非单纯的分类,这意味着轻微的边界框偏移都可能显著影响结果。
换句话说,模型可能正确识别物体的类别,但如果预测的边界框略有偏差,detect 结果仍可能被视为不正确。因为小物体只覆盖少量像素,即使边界框位置的微小偏移,也会显著降低预测框与真实框之间的 IoU。因此,即使物体被正确识别,评估分数也可能下降。

一种更具信息量的方法是按目标尺寸评估性能。大多数广泛使用的基准会分别报告小、中、大目标的平均精度。
这种按尺寸划分的细分提供了模型在哪些方面表现良好以及在哪些方面存在不足的更清晰视图。实际上,small-object AP 通常落后于整体 mAP,这突显了在聚合指标中可能不明显的定位挑战。
模型性能在从受控测试环境转向实际部署时常常发生变化。图像分辨率、处理速度和可用硬件等因素引入了直接影响小物体 detect 的权衡。
例如,提高输入分辨率可以改善小物体的 mAP,因为小目标占据更多像素并保留更多细节。然而,更高的分辨率也会增加内存使用和处理时间。这会减慢推理速度并增加运营成本。

硬件选择在管理这些权衡中起着关键作用。更强大的 GPU 允许使用更大的模型和更快的处理速度,但部署环境,特别是边缘设备,通常计算和内存资源有限。
实时应用增加了另一个限制:保持低延迟可能需要减小模型尺寸或降低输入分辨率,这可能会对小物体的召回率产生负面影响。最终,部署决策需要在 detect 性能、硬件限制、速度要求和总成本之间取得平衡。
改进小物体 detect 需要采取实用且结构化的方法,尤其是在实际环境中工作时。以下是需要记住的主要步骤概述:
提高小物体 mAP 需要采取结构化、数据驱动的方法,而非随机调整。真正的改进来自于结合优质数据、一致的标注、仔细的训练和正确的评估方法。在实际项目中,持续的测试和微小、可衡量的改进是随着时间推移实现更好、更可靠的小物体 detect 的关键。
加入我们不断壮大的社区,并浏览我们的GitHub 仓库以获取实践 AI 资源。立即开始使用视觉 AI 进行构建,请查看我们的许可选项。访问我们的解决方案页面,了解AI 在农业中的应用如何改变农业,以及机器人视觉 AI 如何塑造未来。
开启您的机器学习未来之旅