深圳Yolo 视觉
深圳
立即加入
词汇表

以数据为中心的 AI

探索以数据为中心的 AI,这是一种通过提高数据集质量来提升模型性能的方法。了解为什么更好的数据(而不仅仅是更好的模型)是实现稳健 AI 的关键。

以数据为中心的人工智能是一种开发人工智能(AI)系统的战略方法。 人工智能(AI)系统的战略方法 主要侧重于提高训练数据的质量,而不是迭代模型架构。 在传统工作流程中,开发人员通常将数据集视为固定输入,并花费大量精力调整 超参数或设计复杂的 神经网络 (NN)结构。相比之下,以 相反,以数据为中心的方法则将模型代码(如神经网络的架构)视为固定输入。 Ultralytics YOLO11-作为相对静态的基线、 将工程工作导向系统数据清理、标签一致性和增强,以提高性能。 性能。

核心理念:质量重于数量

任何 任何机器学习(ML)系统的有效性都会受到 "垃圾进,垃圾出"原则的根本限制。 受到 "垃圾进,垃圾出 "原则的限制。即使是最先进的算法,也无法从嘈杂或错误标注的输入中 有效的模式。以数据为中心的人工智能认为,对于许多实际应用来说 应用来说,训练数据是成功的最重要变量。 成功的最重要变量。这种方法强调,较小的、高质量的数据集通常会比大量的、嘈杂的数据集产生更好的结果。 比庞大而嘈杂的数据集产生更好的结果。

这一理念的支持者,如安德鲁-吴(Andrew Ng)认为,人工智能界的关注点过多地偏向于以模型为中心的创新。 人工智能界的关注点过度偏向于以模型为中心的创新。要构建强大的系统、 工程师必须参与主动学习过程 在这个过程中,他们会反复识别故障模式,并通过完善数据集来纠正它们。这包括精确 数据标签,删除重复数据,处理模型难以分类的边缘情况。 模型难以classify边缘情况。

关键技术和实施

实施以数据为中心的战略涉及多个技术流程,旨在设计数据集,以最大限度地提高信息密度和一致性。 信息密度和一致性。

  • 系统数据清理:这包括检测和修正注释中的错误,例如 识别未紧密包含对象的边界框或纠正类不匹配错误。 对象或纠正类不匹配错误。
  • 数据扩充:开发人员使用 数据扩充技术,人为地 扩大数据集的多样性。通过应用旋转、缩放和颜色调整等变换,模型可以更好地泛化到未见过的环境中。 模型学会更好地泛化到未见过的环境中。
  • 合成数据生成:当真实世界数据稀缺时,团队可生成 合成数据来填补数据集的空白、 确保稀有类别得到充分代表。
  • 误差分析:误差分析:工程师不再只看准确率等综合指标,而是分析在哪些具体情况下会出现误差。 准确性等综合指标,工程师会分析模型出现故障的具体情况 模型失效的具体情况,并收集有针对性的数据来解决这些具体的弱点。

下面的Python 代码演示了如何使用 ultralytics 包装

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

实际应用

采用以数据为中心的方法对于以下行业至关重要 计算机视觉 (CV)精度 是至关重要的。

  1. 精准农业:人工智能在农业中的应用 健康作物和早期病害作物之间的区别往往依赖于微妙的视觉线索。以数据为中心的团队将专注于 策划一个 高质量的计算机视觉数据集 该数据集专门包含各种光照条件和生长阶段下的病害实例,以确保 确保模型不会将无关的背景特征与疾病类别联系起来。
  2. 工业检查:对于 制造业中的人工智能,缺陷可能 每万台设备中才会出现一次缺陷。标准模型训练运行可能会忽略这些罕见事件。通过采用 异常检测策略和手动 通过采用异常检测策略,并手动获取或合成这些特定缺陷的更多图像,工程师可确保系统达到质量控制标准所要求的高召回率。 的召回率。 ISO 等组织规定的质量控制标准所要求的高召回率。

区分相关概念

要理解以数据为中心的人工智能,就必须将其与机器学习生态系统中的类似术语区分开来。

  • 以模型为中心的人工智能:这是一种反向方法,即数据集保持不变,而 通过 超参数调整或架构 改变来寻求改进。虽然这种方法对于推动在 IEEE Xplore 上的研究论文中推动最前沿的界限是必要的,但与清理数据相比,它在生产中产生的回报往往是递减的。 与清理数据相比,在生产中产生的回报往往是递减的。
  • 大数据: 大数据主要指 信息的数量、速度和种类。以数据为中心的人工智能并不一定需要 "大 "数据,而是需要 "智能 "数据; 而是需要 "智能 "数据。一个小的、完美标注的数据集往往胜过一个庞大的、嘈杂的数据集。 的数据集。
  • 探索性数据分析(EDA): 数据可视化和 EDA 是 以数据为中心的工作流程中的步骤。EDA 有助于识别不一致之处,但以数据为中心的人工智能包括 的整个工程生命周期。 推理引擎
  • MLOps: 机器学习运营 (MLOps) 提供管理人工智能生产生命周期的基础设施和管道。以数据为中心的人工智能是 方法,以确保流经这些管道的数据能够创建可靠的模型。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入