深圳Yolo 视觉
深圳
立即加入
词汇表

以数据为中心的 AI

探索以数据为中心的 AI,这是一种通过提高数据集质量来提升模型性能的方法。了解为什么更好的数据(而不仅仅是更好的模型)是实现稳健 AI 的关键。

数据中心化人工智能是机器学习(ML)开发中的一种哲学与方法论,其核心在于提升训练数据质量,而非仅专注于优化模型架构。在传统的模型中心化方法中,数据集常被视为静态输入,工程师们往往耗费数周时间调优超参数或设计复杂的神经网络结构。 相反地,数据中心化方法将模型代码视为固定基准,引导工程资源投入系统化数据清洗、标签一致性及数据增强等环节,从而提升整体系统性能。这种转变认识到:在许多实际应用中,"垃圾进,垃圾出"原则是实现高精度的首要瓶颈。

核心理念:质量重于数量

数据中心人工智能的基本前提是:较小的高质量数据集往往比庞大且存在噪声的数据集能产生更优结果。 该领域的领军人物如吴恩达Andrew Ng) 积极倡导这种转变,认为人工智能界历来过度关注算法创新。要构建稳健系统,工程师必须参与主动学习过程——通过反复识别故障模式并优化数据集来修正问题。这涉及精确的数据标注、去除重复数据,以及处理模型难以classify的边缘案例。

此工作流中的关键活动包括:

  • 系统性误差分析:开发者不再仅依赖准确率等综合指标,而是分析模型失效的具体实例——例如在航空影像中检测微小物体——并收集针对性数据以弥补这些缺陷。
  • 标签一致性:确保所有标注人员遵循相同指南至关重要。诸如Label Studio之类的工具可帮助团队管理标注质量,避免产生混淆训练过程的矛盾信号。
  • 数据增强:开发者运用数据增强技术人工扩展数据集的多样性。通过应用旋转、缩放和色彩调整等变换操作,模型能够更好地学习到未见环境的泛化能力。
  • 合成数据生成:当真实世界数据稀缺时,团队可利用NVIDIA 仿真引擎生成合成数据,以填补数据集中的空白,确保罕见类别得到充分体现。

实际应用

计算机视觉精度不可妥协的行业中,采用数据为中心的策略至关重要。

  1. 精准农业: 农业人工智能领域,区分健康作物与早期病害作物往往依赖于细微的视觉线索。 数据导向团队会重点构建 高质量计算机视觉数据集, 特别收录不同光照条件和生长阶段的病害实例。这能避免模型 将无关背景特征与病害类别关联——这种常见问题被称为 捷径学习
  2. 工业检测: 在制造业中, 人工智能检测到的缺陷可能 仅在每万件产品中出现一次。 由于类别不平衡问题, 标准模型训练过程可能忽略这些罕见事件。 通过采用异常检测策略, 并人工采集或合成更多特定缺陷图像, 工程师确保系统达到ISO等机构 定义的质量控制标准所需的高召回率

使用Ultralytics实现数据中心技术

您可以在训练管道中直接应用数据增强等数据中心化技术。以下Python 代码演示了如何加载YOLO26模型,并通过激进的数据增强参数对其进行训练,从而提升模型对数据变异性的鲁棒性。

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

区分相关概念

要理解数据中心人工智能,必须将其与机器学习生态系统中的类似术语区分开来。

  • 以模型为中心的人工智能:这是一种反向方法,即数据集保持不变,而 通过 超参数调整或架构 改变来寻求改进。虽然这种方法对于推动在 IEEE Xplore 上的研究论文中推动最前沿的界限是必要的,但与清理数据相比,它在生产中产生的回报往往是递减的。 与清理数据相比,在生产中产生的回报往往是递减的。
  • 大数据: 大数据主要指信息的规模、速度和多样性。数据中心人工智能并不一定需要"海量"数据,而是需要"智能"数据。正如数据中心人工智能社区所强调的,一个标注精确的小型数据集往往比一个庞大且存在噪声的数据集表现更优。
  • 探索性数据分析(EDA): 数据可视化与EDA是数据中心工作流中的关键步骤。EDA通过熊猫(Pandas)等工具帮助识别数据中的不一致性。 Pandas等工具识别数据异常,而数据中心化AI则涵盖整个工程生命周期, 通过修复这些问题来提升 推理引擎的性能。
  • MLOps: 机器学习运维(MLOps) 提供管理AI生产生命周期的基础设施与管道。数据中心化AI是 应用于MLOps管道中的方法论,确保流经管道的数据能生成可靠模型。 诸如 Weights & Biases 常用于track 数据变更对模型指标track 。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入