以数据为中心的 AI
探索以数据为中心的 AI,这是一种通过提高数据集质量来提升模型性能的方法。了解为什么更好的数据(而不仅仅是更好的模型)是实现稳健 AI 的关键。
以数据为中心的 AI 是一种构建人工智能系统的方法,它优先考虑提高数据集的质量和一致性,而不是迭代模型的架构。在这种模式中,模型(例如像Ultralytics YOLO这样的高级目标检测架构)被视为一个固定组件,而主要重点是系统地设计数据以提高性能。AI 领导者吴恩达 (Andrew Ng) 推广的核心思想是,对于许多实际应用而言,训练数据的质量是模型成功的最大驱动力。这涉及数据清理、准确的数据标注和战略性数据采购等过程,以创建强大而可靠的 AI。
高质量数据的重要性
在机器学习 (ML)中,“垃圾进,垃圾出”的原则是正确的。在嘈杂、不一致或标记不佳的数据上训练的复杂神经网络 (NN)不可避免地会产生不可靠的结果。以数据为中心的方法通过关注数据质量的几个关键方面来解决这个问题。这包括确保标签一致性、纠正错误标记的示例、删除嘈杂或不相关的数据以及丰富数据集以覆盖边缘情况。像数据增强这样的技术是这个过程中的重要工具,允许开发人员人为地扩展数据集的多样性。通过优先考虑高质量的计算机视觉数据集,团队可以比复杂模型重新设计更轻松地显着提高模型准确性和鲁棒性。
实际应用
以数据为中心的人工智能理念在数据质量至关重要的各种实际场景中非常有效。
- 制造业中的人工智能:考虑生产线上的视觉检测系统,该系统旨在检测电子元件中的缺陷。一个以数据为中心的团队会专注于数据集,而不是不断尝试新的模型架构。他们会系统地收集更多罕见缺陷的图像,确保所有缺陷都标有精确的边界框,并使用增强技术来模拟照明和摄像机角度的变化。Ultralytics HUB等平台可以帮助管理这些数据集,并简化自定义模型的训练。这种对数据的迭代改进会带来一个更可靠的系统,能够捕捉到细微的缺陷,直接影响生产质量。
- 人工智能在医疗保健领域的应用:在医学图像分析中,可能需要训练一个模型来识别脑部扫描中的肿瘤。以数据为中心的战略包括与放射科医生密切合作,解决数据集(如脑肿瘤数据集)中的模糊标签问题。该团队将积极寻找和添加代表性不足的肿瘤类型实例,并确保数据反映不同的患者人口统计学特征,以避免数据集出现偏差。这种专注于策划高质量、有代表性数据集的做法对于建立临床医生可以信赖的诊断工具至关重要。美国国立卫生研究院(NIH)提供了有关人工智能在生物医学研究中的作用的资源。
与相关术语的区别
- 模型中心AI: 这是一种传统方法,其中数据集保持不变,而开发人员专注于改进模型。 活动包括设计新的神经网络架构、广泛的超参数调优以及实施不同的优化算法。 虽然重要,但如果底层数据存在缺陷,以模型为中心的关注可能会产生递减的回报。 斯坦福大学的数据中心AI竞赛等项目展示了关注数据而不是模型的力量。
- 大数据:大数据是指对极其庞大和复杂的数据集进行管理和分析。虽然以数据为中心的人工智能可以应用于大数据,但其核心原则是数据质量,而不仅仅是数量。一个较小的、经过精心策划的数据集往往比一个庞大的、嘈杂的数据集产生更好的结果。我们的目标是创建更好的数据,而不一定是更多的数据。
- 探索性数据分析(EDA):EDA 是分析数据集以总结其主要特征的过程,通常采用可视化方法。EDA 是以数据为中心的人工智能工作流程中的一个关键步骤,用于识别不一致和需要改进的地方,而以数据为中心的人工智能则是一种更广泛的理念,即系统地设计整个数据集,以提高人工智能性能。Ultralytics Dataset Explorer等工具可以促进这一过程。