以数据为中心的人工智能
探索以数据为中心的人工智能,即提高数据集质量以提升模型性能的方法。了解为什么更好的数据,而不仅仅是更好的模型,是实现强大人工智能的关键。
以数据为中心的人工智能是一种构建人工智能系统的方法,它将提高数据集的质量和一致性放在首位,而不是迭代模型的架构。在这种模式下,模型(如Ultralytics YOLO 这样的高级物体检测架构)被视为固定组件,而主要重点则是系统地设计数据以提高性能。由人工智能领军人物吴恩达(Andrew Ng)推广的核心理念是,对于许多实际应用而言,训练数据的质量是模型成功的最重要驱动力。这涉及到数据清理、准确数据标注和战略性数据采购等流程,以创建强大可靠的人工智能。
高质量数据的重要性
在机器学习(ML)中,"垃圾进,垃圾出 "的原则是正确的。在嘈杂、不一致或标记不清的数据上训练出来的复杂神经网络(NN)将不可避免地产生不可靠的结果。以数据为中心的方法通过关注数据质量的几个关键方面来解决这个问题。这包括确保标签一致性、纠正错误标签示例、移除嘈杂或无关数据,以及丰富数据集以涵盖边缘情况。在这一过程中,数据增强等技术是必不可少的工具,允许开发人员人为地扩展数据集的多样性。通过优先使用高质量的计算机视觉数据集,团队可以显著提高模型的准确性和鲁棒性,而不需要重新设计复杂的模型。
实际应用
以数据为中心的人工智能理念在数据质量至关重要的各种实际应用场景中非常有效。
- 制造业中的人工智能:考虑一下生产线上的视觉检测系统,该系统旨在检测电子元件中的缺陷。以数据为中心的团队不会不断尝试新的模型架构,而是专注于数据集。他们会系统地收集更多罕见缺陷的图像,确保所有缺陷都标有精确的边界框,并使用增强技术来模拟照明和摄像机角度的变化。Ultralytics HUB等平台可以帮助管理这些数据集,并简化自定义模型的训练。对数据的迭代改进使系统更加可靠,能够捕捉到细微的瑕疵,直接影响制作质量。如需了解更多信息,请参阅Google Cloud如何将人工智能应用于应对制造业挑战。
- 医疗保健领域的人工智能:在医学图像分析中,可以训练一个模型来识别脑部扫描中的肿瘤。以数据为中心的战略包括与放射科医生密切合作,解决数据集(如脑肿瘤数据集)中的模糊标签问题。该团队将积极寻找和添加代表性不足的肿瘤类型实例,并确保数据反映不同的患者人口统计学特征,以避免数据集出现偏差。这种专注于策划高质量、有代表性数据集的做法对于建立临床医生可以信赖的诊断工具至关重要。美国国立卫生研究院(NIH)提供了有关人工智能在生物医学研究中的作用的资源。
与相关术语的区别
- 以模型为中心的人工智能:这是一种传统方法,数据集保持不变,而开发人员则专注于改进模型。这些活动包括设计新的神经网络架构、广泛的超参数调整以及实施不同的优化算法。以模型为中心固然重要,但如果底层数据存在缺陷,那么以模型为中心所带来的回报可能会越来越少。斯坦福大学举办的 "以数据为中心的人工智能竞赛"(Data-Centric AI Competition)等项目展示了关注数据而非模型的力量。
- 大数据:大数据指的是对极其庞大和复杂的数据集进行管理和分析。虽然以数据为中心的人工智能可以应用于大数据,但其核心原则是数据质量,而不仅仅是数量。一个较小的、经过精心策划的数据集往往比一个庞大的、嘈杂的数据集产生更好的结果。我们的目标是创建更好的数据,而不一定是更多的数据。
- 探索性数据分析(EDA):EDA 是分析数据集以总结其主要特征的过程,通常采用可视化方法。EDA 是以数据为中心的人工智能工作流程中的一个关键步骤,用于识别不一致之处和需要改进的地方,而以数据为中心的人工智能则是一种更广泛的理念,即系统地设计整个数据集,以提高人工智能性能。Ultralytics Dataset Explorer等工具可以促进这一过程。