Ultralytics 平台

使用 Ultralytics Platform 进行计算机视觉中的智能数据集管理

探索如何利用 Ultralytics Platform 改善计算机视觉项目中的数据集管理。轻松追踪、对比并改进你的数据集。

ABAbirami Vina6 min readMarch 31, 2026

使用 Ultralytics Platform 进行计算机视觉中的智能数据集管理

视觉 AI，或计算机视觉，自早期以来已取得了长足进步，从实验性研究演变为驱动现实世界应用的关键技术。如今，AI 爱好者可以使用易于上手的工具和框架，为对象检测和实例分割等任务构建强大的模型。

然而，随着这些应用从实验转向生产，数据集管理仍然是一个关键且常被忽视的挑战。随着计算机视觉数据集的规模和复杂性不断增长，团队往往难以保持标注的一致性、跟踪跨版本的变更并确保整体数据质量。

如果训练数据不完整、不平衡或管理不善，即使是最尖端的模型在现实环境中也可能表现不佳。开发性能与现实可靠性之间日益扩大的差距，正是我们需要更结构化的数据集管理方法的原因。

另一个常见的局限性是数据收集、标注和训练通常使用独立的工具进行处理。分散的工作流程使高效管理数据集变得更加困难，增加了不一致的风险，并减缓了迭代速度。

为了解决数据集管理和分散工作流程等视觉 AI 瓶颈，我们最近推出了 Ultralytics Platform。这是一个端到端的工作空间，将数据集管理、标注、训练、部署和监控整合到一个统一的工作流程中。

通过连接计算机视觉生命周期的每个阶段，你可以更轻松地跟踪数据集更改、比较各版本的性能，并不断优化数据以获得更好的结果。

在 Ultralytics Platform 中查看数据集图像

图 1. 在 Ultralytics Platform 中查看你的数据集图像示例 (来源)

在本文中，我们将深入探讨 Ultralytics Platform 如何帮助你跟踪、比较和改进数据集，从而构建更可靠的计算机视觉模型。让我们开始吧！

Link to this section计算机视觉中数据集管理的重要性#

计算机视觉模型的性能与其训练所使用的数据紧密相关。模型准确率（即预测正确的频率）不仅取决于算法，还取决于数据集代表现实世界条件的程度。

简而言之，模型直接从数据中学习模式，因此数据集中的任何差距、偏差或不一致都会影响其预测方式。换句话说，低质量的数据、错误的标注或对现实世界图像变化（如不同的光照条件、物体角度、背景或遮挡程度）的覆盖范围有限，即使模型架构本身很强，也会显著降低准确率。

这也适用于微调模型，即在现有预训练模型的基础上使用新的或更新的数据进行进一步训练，以更好地适应特定的用例或环境。由于模型准确率在很大程度上依赖于数据，因此正确管理这些数据变得至关重要。

数据集管理包括组织、标注和持续更新数据，以确保其准确性和相关性。这使得随着时间的推移提高性能变得更容易，特别是在使用新数据对模型进行再训练或微调时。

Link to this section数据集质量如何影响现实世界的可靠性#

诸如安全监控系统之类的计算机视觉用例，很好地证明了为何适当的数据管理至关重要。这些系统需要在各种现实条件下可靠工作，包括不同的光照环境、摄像机角度、拥挤程度和局部遮挡。

如果训练数据没有覆盖这些变化，或者在不同场景和条件下物体的表现形式缺乏多样性，模型可能难以准确检测物体。例如，一个主要在光照良好、背景整洁的场景中训练的模型，在弱光环境或拥挤设置中可能表现不佳。在安全系统中，这可能导致错过事件或发出误报。

为了避免这种情况，重要的是不仅要保持数据集干净、标注准确，还要保持其均衡并持续更新。这意味着要识别数据中的缺口，随着条件的变化添加新示例，并确保不同类别和环境得到均匀的展示。

有了更完整和结构化的数据集，模型能更好地应对现实世界的各种变化，并产生更可靠的预测。

Link to this section数据集管理的关键方面#

那么，数据集管理到底是什么样的？它涉及组织、标注和维护数据，以便在整个模型开发过程中有效利用。

例如，组织数据包括构建数据集并将其拆分为训练集、验证集和测试集。训练集用于教导模型，验证集用于在开发过程中监控性能并指导调整，而测试集用于评估最终模型在完全未知数据上的表现。

同时，标注涉及用类标签、BBox 或分割掩码等详细信息注释图像。由于模型从这些标注中学习，准确性和一致性对于帮助它学习有意义的模式并进行可靠预测至关重要。

此外，维护数据集涉及随着时间的推移审查和更新数据。这可以包括修复标注错误、删除低质量或重复的数据，以及添加新示例以覆盖缺失的情况或不断变化的条件。

更广泛地说，数据集管理是一个持续的过程。随着模型评估的进行和新数据的收集，数据集需要更新以反映现实世界的条件和边缘情况。跟踪这些更新并比较不同的版本有助于团队了解什么在提高性能，以及在何处需要进一步更改。

Link to this section使用 Ultralytics Platform 管理数据集#

Ultralytics Platform 提供了一个结构化的工作流程，用于在单一环境中管理数据集，涵盖从数据准备到导出的所有环节。它旨在同时支持个人开发者和团队，使你能更轻松地一致性地管理数据集，无论是独立工作还是跨项目协作。

每个阶段都旨在简化整个模型开发生命周期中数据集的组织、处理和使用方式。通过将这些步骤集中在一处，该平台减少了碎片化，并使维护工作流程的一致性变得更加直接。

接下来，让我们逐步了解所涉及的关键步骤以及平台如何支持每个步骤。

Link to this section上传数据集到 Ultralytics Platform#

在平台上开始使用数据集非常灵活，有多种方式引入或重复利用数据。你可以上传自己的数据，或者通过使用平台提供的公共数据集更快地开始工作。你还可以克隆社区共享的现有数据集，并在其基础上进行构建。

平台的社区功能使其易于探索和复用现有工作。通过访问其他用户创建的数据集（包括数百万张图像和标注），你可以快速入门，而不必自己收集和标注所有内容。克隆数据集会在你的工作空间中创建一个副本，允许你修改和扩展它，同时保留原始数据。

对于上传，平台支持单个图像、视频以及 ZIP、TAR 或 GZ 等数据集存档。它还支持 YOLO 和 COCO 等广泛使用的数据集格式，使得导入现有数据集和标注无需额外转换。此外，你可以使用从平台导出的 NDJSON 文件上传数据集，从而轻松地在项目中重新创建或重复利用数据集。

数据上传后，平台会通过结构化管道进行处理。这包括验证文件格式和大小、在需要时调整图像大小、解析标注以及生成数据集统计信息。

例如，视频会被转换为帧以便用于训练，而图像会被优化并准备好，以便在平台内更轻松地浏览和分析。处理完成后，数据集即可用于平台内的标注、分析和模型训练。

Link to this section在 Ultralytics Platform 上进行数据标注#

上传后，可以直接在平台内查看和标注数据集。该平台包含用于各种计算机视觉任务的内置图像标注工具，例如对象检测、实例分割、姿态估计、方向边界框 (OBB) 检测和图像分类。

使用 Ultralytics Platform 进行数据标注

图 2. 使用 Ultralytics Platform 进行数据标注 (来源)

标注可以手动使用这些工具创建，也可以通过 SAM 驱动的智能标注等 AI 辅助功能加速完成。使用 SAM，你可以通过与图像交互来生成掩码、边界框或定向框，这有助于加快标注过程，同时保持准确性。

Link to this section通过 Ultralytics Platform 分析数据集质量#

除了准备和标注数据外，了解数据集质量对于构建可靠的计算机视觉模型至关重要。如果没有对类分布、标注质量、数据集拆分以及数据在不同条件下的表现方式等因素的清晰可见性，就很难发现影响模型性能的问题。

Ultralytics Platform 包含内置功能，可帮助更有效地分析数据集。这些见解直接在数据集界面中提供，贯穿“图像”、“类别”和“图表”等选项卡。

在“图表”选项卡中，你可以查看数据集级别的统计信息，例如拆分分布（训练、验证和测试）、类别频率以及显示物体在图像中出现位置的标注热力图。

“类别”选项卡提供了每个类别的标注计数细目，使发现类别不平衡变得更容易。同时，“图像”选项卡显示图像级别的详细信息，例如尺寸、标注计数以及标签在单个图像中的分布方式。

这些见解使识别类别不平衡、缺失场景或数据分布不均等问题变得更加容易。例如，你可能会注意到某些类别只有很少的示例，或者大多数标注集中在图像的特定区域。

除了数据分析，该平台还支持数据集策划和增强，即通过修复或删除有问题的及创建现有数据的变体来优化数据集，以提高模型性能。这些改进可以直接在平台内通过更新标注、添加新数据或根据分析见解重新组织数据集拆分来完成。

Link to this section从 Ultralytics Platform 导出数据集#

一旦数据集准备并经过验证，即可导出以在不同环境中使用。无论你是本地训练模型、在云端还是在其他工具和工作流程中使用，这都能为你提供使用计算机视觉数据的灵活性。

Ultralytics Platform 支持多种导出格式，包括 YOLO、COCO 和 NDJSON，可以轻松将数据集集成到不同的训练工作流程和工具中。

从 Ultralytics Platform 导出数据集

图 3. 从 Ultralytics Platform 导出数据集 (来源)

导出数据集会创建一个特定时间点的固定数据快照，包括其图像、标注和结构。这很有用，因为随着新数据的添加、标注的更新或拆分的调整，数据集经常发生变化。通过导出快照，你可以保留用于特定训练运行的完全相同的数据集版本。

这使得日后重现结果变得更简单，因为你可以再次在相同的数据设置上训练模型，并比较不同数据集版本的性能。例如，你可以评估添加新图像或修复标注是否真正提高了模型准确率，而不是猜测到底发生了什么变化。

导出过程是异步处理的，一旦就绪，即可下载数据集并在本地、云端或离线训练环境中使用。

Link to this section通过在 Ultralytics Platform 上进行迭代来提高数据集质量#

在机器学习和深度学习工作流程中，数据集管理在部署后仍在继续，因为现实世界的数据通常与训练过程中使用的数据不同。

随着模型遇到新的输入，数据集中的差距（例如缺失条件如弱光环境、不同的摄像机角度、遮挡或拥挤场景）以及标注错误变得更加明显，因此有必要随着时间的推移优化数据。

有几种方法可以改进数据集。你可以添加新的图像或视频来覆盖缺失的条件，例如弱光环境、不同的摄像机角度、遮挡或拥挤场景，这有助于减少数据中的盲点。

同时，确保标注准确且一致（例如正确标记的对象以及精确的边界框或掩码）有助于模型学习更可靠的模式。

这通常遵循一个简单的循环：训练模型、评估结果、识别错误、改进数据集并重新训练。每一步都有助于突出显示诸如错误标注、缺失数据或代表性不足的情况等问题。

假设你正在开发一个用于检测店内商品的实时货架监控系统。数据集的早期版本可能不包含某些产品类型、光照条件或拥挤的货架布局。在评估期间，你可能会注意到模型在这些情况下难以检测商品。

为了提高性能，你可以收集覆盖这些缺失场景的新图像，并在需要时更新标注。随着时间的推移，重复此过程有助于模型在现实条件下变得更加准确和可靠。

Ultralytics Platform 通过将数据集更新与训练和评估连接起来来支持此工作流程。借助内置的实验跟踪和性能指标，可以更轻松地监控进度并随着时间的推移持续改进数据集。

Link to this section使用 Ultralytics Platform 跟踪数据集更改#

我们简要讨论了数据集如何随着模型开发过程的发展而演变。随着新数据的添加、标注的细化和类别的更新，跟踪这些变化成为保持数据质量和确保一致模型性能的关键。

以下是支持数据集跟踪和版本控制的一些关键 Ultralytics Platform 功能：

数据集版本控制：你可以将固定的数据集版本创建为 NDJSON 快照。每个版本都会捕获特定时间点的关键详细信息，例如图像数量、类别数量、标注数量和数据集大小。这些版本会被存储并可在稍后下载，从而更容易重现实验并比较不同数据集状态下的结果。
版本选项卡：所有数据集版本都组织在“版本”选项卡中，你可以在其中查看版本历史记录、添加对更改的描述并跟踪数据集随时间的演变。
与模型关联： “模型”选项卡显示了在数据集上训练的所有模型，包括 mAP 和训练详细信息等指标。数据集版本与训练运行相关联，帮助你了解数据变化如何影响模型性能。
错误选项卡：“错误”选项卡突出显示了在处理过程中失败的文件，并附带错误详细信息和建议。这使你能够在训练前识别并修复损坏的文件或不支持的格式等问题。
数据集界面（“图像”和“类别”选项卡）：这些视图允许你浏览图像、审查标注、管理类标签以及分析类别分布。筛选、排序和识别未标注图像等功能使监控数据集质量随时间的变化变得更简单。
统计信息和图表：内置的数据可视化工具（如拆分分布、类别频率和标注热力图）有助于跟踪数据分布的变化，并在数据集演变过程中识别不平衡现象。

在 Ultralytics Platform 上分析数据集的类别分布

图 4. 在 Ultralytics Platform 上分析数据集类别分布概览 (来源)

Link to this section在 Ultralytics Platform 内将数据集连接到训练和部署#

Ultralytics Platform 将 AI 模型开发的不同阶段连接到一个单一的管道中。这简化了从原始数据到生产级视觉 AI 应用的流程。

一旦数据集准备好并完成标注，它们就可以直接在平台内用于训练计算机视觉模型，例如 Ultralytics YOLO26。在训练期间，你可以使用内置仪表板监控性能指标、跟踪实验并评估模型的学习效果。

在 Ultralytics Platform 上查看模型训练指标

图 5. 在 Ultralytics Platform 上查看模型训练指标的一瞥 (来源)

训练完成后，模型可以直接在浏览器中对新图像进行测试，以评估预测结果并在部署前识别改进领域。当模型表现良好时，即可将其部署到生产环境。

该平台支持将模型导出为多种格式，或通过推理服务和专用端点进行部署，允许它们在不同的环境中运行。

部署后，内置的监控工具可帮助跟踪系统随时间的性能，包括与使用率和模型行为相关的指标。这使得在现实应用中维护和改进视觉 AI 系统变得更加简单。

Link to this section使用 Ultralytics Platform 进行数据集管理的最佳实践#

在使用 Ultralytics Platform 管理数据集时，请记住以下几个关键因素：

使用筛选器查找差距：使用筛选工具识别未标注或代表性不足的数据，从而更顺畅地完成标注并提高覆盖范围。
尽早修复错误：将“错误”选项卡用于质量控制，以便在训练前捕获上传失败、损坏的文件或不支持的格式。
持续更新数据集：随着边缘情况的出现，及时添加新数据、修复标注并将其包含进去。这有助于提高覆盖范围并确保模型在现实场景中可靠运行。
谨慎管理数据集拆分：确保训练集、验证集和测试集之间的良好平衡。你可以手动重新组织拆分，或在需要时使用自动重新分配。

要了解有关 Ultralytics Platform 的更多信息，请查阅官方 Ultralytics 文档。

Link to this section关键要点#

随着计算机视觉项目的扩展，有效管理数据集变得与模型开发同样重要。一种结构化的数据集管理方法有助于提高数据质量、精简工作流程并随着时间的推移支持更好的模型性能。

Ultralytics Platform 通过将数据集管理、训练和部署整合到一个工作流程中来简化此过程。通过采用结构化的数据集管理方法，团队可以降低复杂性、提高效率并构建更具可扩展性和可靠性的计算机视觉系统。

加入我们不断发展的社区，并探索我们的 GitHub 仓库以获取 AI 资源。如需立即使用视觉 AI 进行构建，请查看我们的许可选项。通过访问我们的解决方案页面，了解农业 AI 如何改变农业，以及医疗保健视觉 AI 如何塑造未来。

使用 Ultralytics Platform 进行计算机视觉中的智能数据集管理

Link to this section计算机视觉中数据集管理的重要性#

Link to this section数据集质量如何影响现实世界的可靠性#

Link to this section数据集管理的关键方面#

Link to this section使用 Ultralytics Platform 管理数据集#

Link to this section上传数据集到 Ultralytics Platform#

Link to this section在 Ultralytics Platform 上进行数据标注#

Link to this section通过 Ultralytics Platform 分析数据集质量#

Link to this section从 Ultralytics Platform 导出数据集#

Link to this section通过在 Ultralytics Platform 上进行迭代来提高数据集质量#

Link to this section使用 Ultralytics Platform 跟踪数据集更改#

Link to this section在 Ultralytics Platform 内将数据集连接到训练和部署#

Link to this section使用 Ultralytics Platform 进行数据集管理的最佳实践#

Link to this section关键要点#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！