探索以数据为中心的 AI,这是一种通过提高数据集质量来提升模型性能的方法。了解为什么更好的数据(而不仅仅是更好的模型)是实现稳健 AI 的关键。
以数据为中心的人工智能是一种开发人工智能(AI)系统的战略方法。 人工智能(AI)系统的战略方法 主要侧重于提高训练数据的质量,而不是迭代模型架构。 在传统工作流程中,开发人员通常将数据集视为固定输入,并花费大量精力调整 超参数或设计复杂的 神经网络 (NN)结构。相比之下,以 相反,以数据为中心的方法则将模型代码(如神经网络的架构)视为固定输入。 Ultralytics YOLO11-作为相对静态的基线、 将工程工作导向系统数据清理、标签一致性和增强,以提高性能。 性能。
任何 任何机器学习(ML)系统的有效性都会受到 "垃圾进,垃圾出"原则的根本限制。 受到 "垃圾进,垃圾出 "原则的限制。即使是最先进的算法,也无法从嘈杂或错误标注的输入中 有效的模式。以数据为中心的人工智能认为,对于许多实际应用来说 应用来说,训练数据是成功的最重要变量。 成功的最重要变量。这种方法强调,较小的、高质量的数据集通常会比大量的、嘈杂的数据集产生更好的结果。 比庞大而嘈杂的数据集产生更好的结果。
这一理念的支持者,如安德鲁-吴(Andrew Ng)认为,人工智能界的关注点过多地偏向于以模型为中心的创新。 人工智能界的关注点过度偏向于以模型为中心的创新。要构建强大的系统、 工程师必须参与主动学习过程 在这个过程中,他们会反复识别故障模式,并通过完善数据集来纠正它们。这包括精确 数据标签,删除重复数据,处理模型难以分类的边缘情况。 模型难以classify边缘情况。
实施以数据为中心的战略涉及多个技术流程,旨在设计数据集,以最大限度地提高信息密度和一致性。 信息密度和一致性。
下面的Python 代码演示了如何使用
ultralytics 包装
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
采用以数据为中心的方法对于以下行业至关重要 计算机视觉 (CV)精度 是至关重要的。
要理解以数据为中心的人工智能,就必须将其与机器学习生态系统中的类似术语区分开来。