探索如何使用 Ultralytics Platform 在计算机视觉项目中更好地管理数据集。轻松地 track、比较和改进您的数据集。
探索如何使用 Ultralytics Platform 在计算机视觉项目中更好地管理数据集。轻松地 track、比较和改进您的数据集。
视觉 AI,即 计算机视觉,自早期发展以来已取得了长足进步,从实验性研究演变为驱动现实世界应用的关键技术。如今,AI 爱好者可以利用易于获取的工具和框架,构建强大的模型用于目标检测和实例分割等任务。
然而,随着这些应用从实验阶段走向生产阶段,数据集管理仍然是一个关键但常被忽视的挑战。随着 计算机视觉数据集 的规模和复杂性不断增长,团队在维护一致的标注、track 各版本间的变化以及确保整体数据质量方面常常面临困难。
即使是尖端模型,如果其训练数据不完整、不平衡或管理不善,也可能在实际环境中表现不佳。开发性能与实际可靠性之间日益扩大的差距,正是需要更结构化的数据集管理方法的原因。
另一个常见的局限是,数据收集、标注和训练通常使用不同的工具进行处理。碎片化的工作流程使得数据集难以高效管理,增加了不一致的风险,并减缓了迭代速度。
为解决数据集管理和碎片化工作流程等视觉 AI 瓶颈,我们最近推出了 Ultralytics Platform。它是一个端到端的工作空间,将数据集管理、标注、训练、部署和监控整合到一个统一的工作流程中。
通过连接计算机视觉生命周期的每个阶段,可以更轻松地 track 数据集变化,比较不同版本间的性能,并持续优化数据以获得更好的结果。

在本文中,我们将深入探讨 Ultralytics Platform 如何帮助您 track、比较和改进数据集,以构建更可靠的计算机视觉模型。让我们开始吧!
一个 计算机视觉模型 的性能与其训练数据密切相关。模型准确性,即预测的正确频率,不仅取决于算法,还取决于数据集对真实世界条件的代表程度。
简而言之,模型直接从数据中学习模式,因此数据集中存在的任何空白、偏差或不一致都可能影响其预测方式。换句话说,低质量数据、不正确的标注,或图像中真实世界变化的覆盖不足(例如不同的光照条件、物体角度、背景或遮挡程度),都可能显著降低准确性,即使模型架构本身很强大。
这同样适用于模型微调,即在新的或更新的数据上进一步训练预训练模型,以使其更好地适应特定的用例或环境。由于模型准确性高度依赖于数据,因此正确管理数据变得至关重要。
数据集管理包括组织、标注和持续更新数据,以确保其准确性和相关性。这使得随着时间的推移更容易提高性能,尤其是在使用新数据重新训练或微调模型时。
计算机视觉用例,例如 安全监控系统,是说明为何正确数据管理至关重要的绝佳例子。这些系统需要在各种实际条件下可靠运行,包括不同的光照环境、摄像机角度、人群密集程度和部分遮挡。
如果训练数据未能涵盖这些变化,或者在不同场景和条件下物体外观的多样性不足,模型可能难以准确 detect 物体。例如,一个主要在光线充足、整洁场景下训练的模型,可能在低光照环境或拥挤设置中表现不佳。在安全系统中,这可能导致事件遗漏或误报。
为避免这种情况,维护数据集至关重要,这些数据集不仅要干净且标注准确,还要均衡且持续更新。这意味着要识别数据中的空白,随着条件变化添加新示例,并确保不同类别和环境得到均匀表示。
拥有更完整和结构化的数据集,模型能更好地应对真实世界的可变性,并产生更可靠的预测。
那么,数据集管理究竟是怎样的呢?它涉及数据的组织、标注和维护,以确保数据能在整个模型开发过程中得到有效利用。
例如,数据组织包括构建数据集结构,并将其划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于在开发过程中监控性能并指导调整,而测试集则用于评估最终模型在完全未见过的数据上的表现。
同时,标注涉及对图像进行详细注释,例如添加类别标签、边界框或分割掩码。由于模型从这些标注中学习,因此准确性和一致性对于帮助模型学习有意义的模式并做出可靠预测至关重要。
此外,数据集的维护涉及随着时间推移审查和更新数据。这可能包括修复标注错误、删除低质量或重复数据,以及添加新示例以覆盖缺失情况或不断变化的条件。
更广泛地说,数据集管理是一个持续的过程。随着模型被评估和新数据的收集,数据集需要更新以反映真实世界的条件和边缘情况。跟踪这些更新并比较不同版本有助于团队了解哪些方面正在提升性能以及何处需要进一步改进。
Ultralytics Platform 提供了一个结构化的工作流程,用于在单一环境中管理数据集,涵盖从数据准备到导出的所有环节。它旨在支持个人开发者和团队,无论您是独立工作还是跨项目协作,都能更轻松地一致管理数据集。
每个阶段都旨在简化数据集在整个模型开发生命周期中的组织、处理和使用方式。通过将这些步骤整合到一个平台中,它减少了碎片化,并使跨工作流程保持一致性变得更加直接。
接下来,让我们逐步了解所涉及的关键步骤以及平台如何支持每个步骤。
在平台上开始使用数据集非常灵活,有多种方式导入或重用数据。您可以上传自己的数据,也可以通过平台提供的公共数据集更快地开始。您还可以克隆社区共享的现有数据集并在其基础上进行构建。
平台的社区功能使探索和重用现有工作变得容易。通过访问其他用户创建的数据集,包括数百万张图像和标注,您可以快速开始,而无需自己收集和标注所有内容。克隆数据集会在您的工作区中创建一个副本,允许您修改和扩展它,同时保留原始数据。
对于上传,平台支持单个图像、视频以及 ZIP、TAR 或 GZ 文件等数据集归档。它还支持 YOLO 和 COCO 等广泛使用的数据集格式,无需额外转换即可轻松导入现有数据集和标注。此外,您还可以使用从平台导出的 NDJSON 文件上传数据集,从而实现跨项目无缝地重新创建或重用数据集。
数据上传后,平台会通过结构化管道处理数据。这包括验证文件格式和大小、在需要时调整图像大小、解析标注以及生成数据集统计信息。
例如,视频被转换为帧,以便用于训练,而图像则经过优化和准备,以便于浏览和分析。处理后,数据集即可在平台内用于标注、分析和模型训练。
上传后,数据集可以直接在平台内进行审查和标注。平台内置了适用于一系列计算机视觉任务的 图像标注 工具,例如目标检测、实例分割、姿势估计、旋转框检测 (OBB) 和图像分类。

标注可以使用这些工具手动创建,也可以通过 SAM 驱动的智能标注等 AI 辅助功能进行加速。借助 SAM,您可以通过与图像交互来生成掩码、边界框或旋转框,从而在保持准确性的同时加快标注过程。
除了准备和标注数据,了解数据集质量对于构建可靠的计算机视觉模型至关重要。如果无法清晰了解类别分布、标注质量、数据集划分以及数据在不同条件下的表示方式等因素,就很难发现影响模型性能的问题。
Ultralytics Platform 包含内置功能,可帮助更有效地分析数据集。这些洞察可在数据集界面中直接获取,分布在图像、类别和图表等选项卡中。
在图表选项卡中,您可以查看数据集级别的统计信息,例如划分分布(训练集、验证集和测试集)、类别频率以及显示对象在图像中出现位置的标注热力图。
类别选项卡提供了按类别划分的标注数量明细,从而更容易发现类别不平衡。同时,图像选项卡显示了图像级别的详细信息,例如尺寸、标注数量以及标签在单个图像中的分布方式。
这些洞察使得识别类别不平衡、缺失场景或数据分布不均等问题变得更加容易。例如,您可能会注意到某些类别的示例很少,或者大多数标注集中在图像的特定区域。
除了数据分析,平台还支持数据集策展和增强,这意味着通过修复或删除有问题的数据以及创建现有数据的变体来优化数据集,以提高模型性能。这些改进可以直接在平台内进行,通过更新标注、添加新数据或根据分析洞察重新组织数据集划分来实现。
一旦数据集准备并验证完毕,即可导出以在不同环境中使用。这使您能够灵活地在任何您喜欢的地方使用您的 计算机视觉数据,无论是本地模型训练、云端训练,还是在其他工具和工作流中。
Ultralytics Platform 支持多种导出格式,包括 YOLO、COCO 和 NDJSON,从而轻松将数据集集成到不同的训练工作流和工具中。

导出数据集会创建数据在特定时间点的固定快照,其中包含图像、标注和结构。这很有用,因为数据集通常会随着新数据的添加、标注的更新或拆分的调整而变化。通过导出快照,您可以保留用于特定训练运行的数据集的精确版本。
这使得后续重现结果变得更简单,因为您可以再次在相同的数据设置上训练模型,并比较不同数据集版本之间的性能。例如,您可以评估添加新图像或修复标注是否确实提高了模型准确性,而不是猜测发生了什么变化。
导出操作是异步处理的,一旦准备就绪,数据集即可下载并在本地、云端或离线训练环境中使用。
在机器学习和深度学习工作流中,数据集管理在部署后仍在继续,因为真实世界的数据通常与训练期间使用的数据不同。
随着模型遇到新的输入,数据集中的空白,例如缺少低光环境、不同摄像机角度、遮挡或拥挤场景等条件,以及标注错误,变得更加明显,这使得随着时间的推移不断优化数据变得必要。
有几种方法可以改进数据集。您可以添加新的图像或视频来弥补缺失的条件,例如低光环境、不同摄像机角度、遮挡或拥挤场景,这有助于减少数据中的盲点。
同时,确保标注准确且一致,例如正确标记的对象和精确的边界框或掩码,有助于模型学习更可靠的模式。
这通常遵循一个简单的循环:训练模型、评估结果、识别错误、改进数据集并重新训练。每一步都有助于发现问题,例如不正确的标注、缺失数据或代表性不足的案例。
假设您正在开发一个用于 detect 商店中产品的实时零售货架监控系统。数据集的早期版本可能不包括某些产品类型、光照条件或拥挤的货架布置。在评估过程中,您可能会注意到模型在这些情况下难以 detect 物品。
为了提高性能,您可以收集涵盖这些缺失场景的新图像,并在需要时更新标注。随着时间的推移,重复此过程有助于模型在真实世界条件下变得更准确和可靠。
Ultralytics Platform 通过将数据集更新与训练和评估连接起来,支持此工作流。凭借内置的实验跟踪和性能指标,监控进度并随着时间的推移持续改进数据集变得更加容易。
我们简要讨论了数据集如何在模型开发过程中随时间演变。随着新数据的添加、标注的完善和类别的更新,跟踪这些变化对于保持数据质量和确保模型性能的一致性至关重要。
以下是 Ultralytics Platform 支持数据集跟踪和版本控制的一些关键功能:

Ultralytics Platform 将 AI 模型开发的不同阶段连接到一个单一的管道中。这简化了从原始数据到可用于生产的视觉 AI 应用程序的过程。
一旦数据集准备并标注完毕,即可直接在平台内用于训练计算机视觉模型,例如 Ultralytics YOLO26。在训练期间,您可以使用内置仪表板监控性能指标、跟踪实验并评估模型的学习效果。

训练完成后,模型可以直接在浏览器中通过新图像进行测试,以评估预测结果并在部署前识别改进领域。当模型表现良好时,即可部署到生产环境。
该平台支持将模型导出为多种格式,或通过推理服务和专用端点进行部署,使它们能够在不同环境中运行。
部署后,内置监控工具可帮助 track 系统随时间推移的性能,包括与使用情况和模型行为相关的指标。这使得在实际应用中维护和改进视觉AI系统变得更加简单。
使用 Ultralytics Platform 管理数据集时,请牢记以下几个关键因素:
要了解更多关于 Ultralytics Platform 的信息,请查阅官方 Ultralytics 文档。
随着计算机视觉项目规模的扩大,有效管理数据集与模型开发同等重要。结构化的数据集管理方法有助于提高数据质量、简化工作流程,并随时间推移支持更好的模型性能。
Ultralytics Platform 通过将数据集管理、训练和部署整合到单一工作流程中来简化这一过程。通过采用结构化的数据集管理方法,团队可以降低复杂性、提高效率,并构建更具可扩展性和可靠性的计算机视觉系统。
加入我们不断壮大的社区,并探索我们的GitHub 仓库以获取AI资源。要立即构建视觉AI,请查看我们的许可选项。通过访问我们的解决方案页面,了解农业AI如何改变农业以及医疗保健领域的视觉AI如何塑造未来。

开启您的机器学习未来之旅