Data-Centric AI
探索以数据为中心的 AI,通过优先考虑数据质量来提高模型性能。学习使用 Ultralytics Platform 为 Ultralytics YOLO26 策划数据集。
以数据为中心的AI是一种机器学习哲学和方法,它侧重于提高用于训练模型的数据集的质量,而不是主要关注调整模型架构或超参数。在传统的以模型为中心的开发中,工程师通常在保持数据集不变的情况下迭代算法,以榨取更好的性能。以数据为中心的AI颠覆了这种范式,它认为对于许多现代应用来说,模型架构已经足够先进,提高性能最有效的方法是系统地优化数据本身。这涉及到清洗、标注、增强和管理数据集,以确保它们具有一致性、多样性,并能代表现实世界的问题。
Link to this section核心哲学:数据质量重于数量#
向以数据为中心的方法转变认识到,“垃圾进,垃圾出”是机器学习中的基本真理。如果数据本身是有噪声或有偏见的,那么简单地增加更多数据并不总是解决方案。相反,这种方法强调了高质量计算机视觉数据集的重要性。通过优先考虑数据质量和一致性,开发人员通常可以用较小、经过精心策划的数据集实现比使用海量、混乱数据集更高的准确性。
这种哲学与主动学习密切相关,在主动学习中,模型有助于识别哪些数据点最值得进行下一步标注。诸如Ultralytics Platform之类的工具通过简化数据标注和管理来促进这一过程,使团队能够协作提高数据集的健康度。这与纯粹的监督学习工作流形成对比,在后者中,数据集通常被视为静态制品。
Link to this section以数据为中心的AI中的关键技术#
实施以数据为中心的策略涉及一些超越简单数据收集的实际步骤。
- **标签一致性:**确保所有标注员以完全相同的方式标注对象至关重要。例如,在目标检测中,严格定义是否将汽车的侧视镜包含在边界框中,会对模型性能产生重大影响。
- **数据增强:**系统地对现有数据应用转换以覆盖边缘案例。你可以阅读我们的数据增强终极指南,以了解旋转和马赛克增强等技术如何帮助模型实现更好的泛化。
- **错误分析:**识别模型失败的特定类别或场景,并收集针对性的数据来填补这些空白。这通常涉及检查混淆矩阵以查明弱点。
- **数据清洗:**删除重复图像,纠正标注错误的示例,并过滤掉可能使神经网络感到困惑的低质量数据。
Link to this section实际应用#
以数据为中心的方法正在改变那些可靠性不容妥协的行业。
-
**医学影像:**在医学影像中的肿瘤检测等领域,获得数百万张图像是不可能的。相反,研究人员专注于策划经过专家评审、高度准确的数据集。以数据为中心的方法确保分割掩码中的每一个像素都是精确的,因为模糊的标签可能导致危及生命的错误。
-
**制造业质量控制:**在部署视觉检测系统时,与完美零件相比,划痕或凹痕等缺陷很少见。以数据为中心的策略包括合成或专门捕获缺陷数据以平衡数据集,确保模型不会仅仅对每个项目都预测为“通过”。
Link to this section以数据为中心的AI vs. 以模型为中心的AI#
区分以数据为中心的AI和以模型为中心的AI非常重要。在以模型为中心的工作流中,数据集是固定的,目标是通过改变模型架构(例如,从YOLO11切换到自定义的ResNet)或调整诸如学习率之类的参数来改进指标。在以数据为中心的工作流中,模型架构是固定的(例如,标准化使用YOLO26),目标是通过清洗标签、添加多样化示例或处理离群值来改进指标。
以下代码片段演示了一个简单的以数据为中心的检查:在训练前检查你的数据集是否存在损坏的图像。这可确保你的训练流水线不会因为糟糕的数据而失败。
from ultralytics.data.utils import check_cls_dataset
# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
# Checks the dataset defined in a YAML or path structure
check_cls_dataset("mnist", split="train")
print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
print(f"Data issue found: {e}")Link to this section以数据为中心开发的工具#
为了有效地实践以数据为中心的AI,开发人员依赖于强大的工具。 Ultralytics Platform 是管理数据生命周期的中心枢纽,提供自动标注功能,在保持一致性的同时加快标注过程。此外,使用资源管理器工具允许用户对数据集进行语义查询(例如,“查找所有夜间拍摄的红色汽车的图像”),以了解分布和偏差。
通过关注数据,工程师可以构建在自动驾驶汽车或智慧零售等动态环境中更稳健、公平且实用的系统。这种转变承认,对于许多问题而言,代码已是已解决的问题,而数据仍然是创新的前沿。






