词汇表

以数据为中心的 AI

探索以数据为中心的 AI，这是一种通过提高数据集质量来提升模型性能的方法。了解为什么更好的数据（而不仅仅是更好的模型）是实现稳健 AI 的关键。

以数据为中心的人工智能是一种开发人工智能（AI）系统的战略方法。人工智能（AI）系统的战略方法主要侧重于提高训练数据的质量，而不是迭代模型架构。在传统工作流程中，开发人员通常将数据集视为固定输入，并花费大量精力调整超参数或设计复杂的神经网络 (NN)结构。相比之下，以相反，以数据为中心的方法则将模型代码（如神经网络的架构）视为固定输入。 Ultralytics YOLO11-作为相对静态的基线、将工程工作导向系统数据清理、标签一致性和增强，以提高性能。性能。

核心理念：质量重于数量

任何任何机器学习（ML）系统的有效性都会受到 "垃圾进，垃圾出"原则的根本限制。受到 "垃圾进，垃圾出 "原则的限制。即使是最先进的算法，也无法从嘈杂或错误标注的输入中有效的模式。以数据为中心的人工智能认为，对于许多实际应用来说应用来说，训练数据是成功的最重要变量。成功的最重要变量。这种方法强调，较小的、高质量的数据集通常会比大量的、嘈杂的数据集产生更好的结果。比庞大而嘈杂的数据集产生更好的结果。

这一理念的支持者，如安德鲁-吴（Andrew Ng）认为，人工智能界的关注点过多地偏向于以模型为中心的创新。人工智能界的关注点过度偏向于以模型为中心的创新。要构建强大的系统、工程师必须参与主动学习过程在这个过程中，他们会反复识别故障模式，并通过完善数据集来纠正它们。这包括精确数据标签，删除重复数据，处理模型难以分类的边缘情况。模型难以classify边缘情况。

关键技术和实施

实施以数据为中心的战略涉及多个技术流程，旨在设计数据集，以最大限度地提高信息密度和一致性。信息密度和一致性。

系统数据清理：这包括检测和修正注释中的错误，例如识别未紧密包含对象的边界框或纠正类不匹配错误。对象或纠正类不匹配错误。
数据扩充：开发人员使用数据扩充技术，人为地扩大数据集的多样性。通过应用旋转、缩放和颜色调整等变换，模型可以更好地泛化到未见过的环境中。模型学会更好地泛化到未见过的环境中。
合成数据生成：当真实世界数据稀缺时，团队可生成合成数据来填补数据集的空白、确保稀有类别得到充分代表。
误差分析：误差分析：工程师不再只看准确率等综合指标，而是分析在哪些具体情况下会出现误差。准确性等综合指标，工程师会分析模型出现故障的具体情况模型失效的具体情况，并收集有针对性的数据来解决这些具体的弱点。

下面的Python 代码演示了如何使用 ultralytics 包装

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

实际应用

采用以数据为中心的方法对于以下行业至关重要计算机视觉 (CV)精度是至关重要的。

精准农业：在人工智能在农业中的应用健康作物和早期病害作物之间的区别往往依赖于微妙的视觉线索。以数据为中心的团队将专注于策划一个高质量的计算机视觉数据集该数据集专门包含各种光照条件和生长阶段下的病害实例，以确保确保模型不会将无关的背景特征与疾病类别联系起来。
工业检查：对于制造业中的人工智能，缺陷可能每万台设备中才会出现一次缺陷。标准模型训练运行可能会忽略这些罕见事件。通过采用异常检测策略和手动通过采用异常检测策略，并手动获取或合成这些特定缺陷的更多图像，工程师可确保系统达到质量控制标准所要求的高召回率。的召回率。 ISO 等组织规定的质量控制标准所要求的高召回率。

区分相关概念

要理解以数据为中心的人工智能，就必须将其与机器学习生态系统中的类似术语区分开来。

以模型为中心的人工智能：这是一种反向方法，即数据集保持不变，而通过超参数调整或架构改变来寻求改进。虽然这种方法对于推动在 IEEE Xplore 上的研究论文中推动最前沿的界限是必要的，但与清理数据相比，它在生产中产生的回报往往是递减的。与清理数据相比，在生产中产生的回报往往是递减的。
大数据： 大数据主要指信息的数量、速度和种类。以数据为中心的人工智能并不一定需要 "大 "数据，而是需要 "智能 "数据；而是需要 "智能 "数据。一个小的、完美标注的数据集往往胜过一个庞大的、嘈杂的数据集。的数据集。
探索性数据分析（EDA）： 数据可视化和 EDA 是以数据为中心的工作流程中的步骤。EDA 有助于识别不一致之处，但以数据为中心的人工智能包括的整个工程生命周期。推理引擎。
MLOps： 机器学习运营 (MLOps) 提供管理人工智能生产生命周期的基础设施和管道。以数据为中心的人工智能是方法，以确保流经这些管道的数据能够创建可靠的模型。

以数据为中心的 AI

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

核心理念：质量重于数量

关键技术和实施

实际应用

区分相关概念

阅读更多此类别的内容

Oakley Meta AI眼镜正以视觉人工智能技术重新定义眼镜行业

计算机视觉技术正推动更智能的观鸟双筒望远镜发展

自监督学习在去噪中的应用：分步解析

加入Ultralytics 社区