深圳Yolo 视觉
深圳
立即加入
词汇表

以数据为中心的 AI

探索数据中心AI如何通过优先考虑数据质量来提升模型性能。学习如何结合 Ultralytics 平台为 Ultralytics YOLO26 策划数据集。

以数据为中心的AI是一种机器学习的理念和方法,侧重于提高用于训练模型的数据集质量,而非主要关注调整模型架构或超参数。在传统的以模型为中心开发中,工程师通常会固定数据集,同时迭代算法以榨取更好的性能。以数据为中心的AI颠覆了这一范式,认为对于许多现代应用,模型架构已经足够先进,提高性能最有效的方法是系统地对数据本身进行工程化。这包括清洗、标注、增强和管理数据集,以确保它们一致、多样且能代表真实世界的问题。

核心理念:数据质量优先于数量

转向以数据为中心的方法论,认识到“垃圾进,垃圾出”是机器学习中的一个基本真理。如果数据噪声大或存在偏差,简单地增加更多数据并非总是解决方案。相反,这种方法强调高质量计算机视觉数据集的重要性。通过优先考虑数据质量和一致性,开发者通常可以使用更小、精心策划的数据集,而非庞大、混乱的数据集,来获得更高的准确性。

这种理念与主动学习密切相关,模型帮助识别哪些数据点最有价值进行下一步标注。像Ultralytics Platform这样的工具通过简化数据标注和管理来促进这一点,允许团队协作改善数据集的“健康状况”。这与纯粹的监督学习工作流程形成对比,在后者中数据集通常被视为静态工件。

以数据为中心的AI的关键技术

实施以数据为中心的策略涉及几个超越简单数据收集的实际步骤。

  • 标签一致性:确保所有标注者以完全相同的方式标注对象至关重要。例如,在object detection中,严格定义是否将汽车的侧后视镜包含在边界框内会显著影响模型性能
  • 数据增强:系统地对现有数据应用变换以覆盖边缘情况。您可以阅读我们的 数据增强终极指南 ,了解旋转和马赛克增强等技术如何帮助模型更好地泛化。
  • 错误分析:识别模型失败的特定类别或场景,并收集有针对性的数据来弥补这些空白。这通常涉及检查混淆矩阵以找出弱点。
  • 数据清洗:删除重复图像、纠正错误标记的示例,并过滤掉可能混淆 神经网络的低质量数据。

实际应用

以数据为中心的方法正在改变那些可靠性不容妥协的行业。

  1. 医学影像:医学影像中的肿瘤检测等领域,获取数百万张图像是不可能的。相反,研究人员专注于策划高度准确、经过专家审查的数据集。以数据为中心的方法确保分割掩码中的每个像素都精确无误,因为模糊的标签可能导致危及生命的错误。
  2. 制造质量控制:在部署视觉检测系统时,划痕或凹痕等缺陷相对于完美部件而言是罕见的。以数据为中心的策略涉及合成或专门捕获缺陷数据以平衡数据集,确保模型不会仅仅对每个项目都预测“通过”。

以数据为中心的AI与以模型为中心的AI

区分以数据为中心的AI以模型为中心的AI至关重要。在以模型为中心的工作流程中,数据集是固定的,目标是通过改变模型架构(例如,从YOLO11切换到自定义ResNet)或调整学习率等参数来改进指标。在以数据为中心的工作流程中,模型架构是固定的(例如,标准化使用YOLO26),目标是通过清理标签、添加多样化示例或处理异常值来改进指标。

以下代码片段演示了一个简单的数据中心检查:在训练前检查数据集是否存在损坏图像。这确保您的训练管道不会因不良数据而失败。

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

以数据为中心开发的工具

为了有效实践以数据为中心的AI,开发者依赖于强大的工具。Ultralytics Platform作为管理数据生命周期的中心枢纽,提供自动标注功能,在保持一致性的同时加快标注过程。此外,使用探索工具允许用户语义化查询其数据集(例如,“查找所有夜间的红色汽车图像”),以了解分布和偏差。

通过关注数据,工程师可以构建更鲁棒、公平且实用的系统,以部署在动态环境中,例如自动驾驶汽车智能零售。这一转变承认,对于许多问题而言,代码已是已解决的问题,但数据仍然是创新的前沿。

让我们一起共建AI的未来!

开启您的机器学习未来之旅