术语表

数据挖掘

了解数据挖掘如何将原始数据转化为可操作的见解,为人工智能、ML 以及医疗保健、零售等领域的实际应用提供动力!

数据挖掘是在大型数据集中发现模式、相关性和异常现象,从而提取有价值的、以前未知的信息的过程。它是将原始数据转化为可理解结构的重要探索步骤,通常是预测建模机器学习(ML)任务的基础。通过利用统计学、数据库系统和人工智能技术,数据挖掘有助于发现隐藏的洞察力,为商业战略、科学研究和技术创新提供依据。

数据挖掘的工作原理

数据挖掘流程通常按照跨行业数据挖掘标准流程(CRISP-DM)等框架构建。典型的阶段包括

  1. 数据收集和整合:从各种来源收集数据,其中可能包括结构化数据库、非结构化文本或数据湖中的图像。
  2. 数据预处理:这包括数据清理,以处理缺失或不一致的值,以及数据转换,以规范或汇总数据进行分析。在这一阶段,还可以使用数据扩充来丰富数据集。
  3. 模式发现和建模:应用算法识别模式。常见任务包括分类、聚类(K-Means)、回归和关联规则挖掘。这是大量使用 ML 算法的阶段。
  4. 评估和解释:评估所发现模式的有效性和实用性。在这方面,数据可视化是一个重要工具,有助于使研究结果易于理解。
  5. 知识部署:将发现的知识整合到操作系统中,如推荐引擎或欺诈检测系统。

真实世界的人工智能和计算机视觉应用

数据挖掘是许多行业开发智能系统的基础。

  • 零售和市场篮子分析中的人工智能:零售商通过挖掘大量交易日志来发现哪些产品经常一起购买。例如,如果发现购买面包的顾客也经常购买牛奶(关联规则),就可以为产品摆放策略、捆绑促销和定向广告提供依据。这种对顾客行为的分析还能为个性化推荐系统提供帮助。进一步了解人工智能如何提高零售效率
  • 医学影像分析:在医疗保健领域的人工智能中,数据挖掘技术被应用于大规模医疗记录和图像数据集,如脑肿瘤数据集。通过挖掘这些数据,研究人员可以找出将某些图像特征或患者人口统计学特征与疾病联系起来的模式和相关性。这有助于建立诊断模型(如肿瘤检测模型),并支持美国国立卫生研究院(NIH)等机构推动医学科学的发展。

数据挖掘与相关概念

重要的是要将数据挖掘与其他相关的数据科学术语区分开来。

  • 机器学习 (ML):虽然这两个术语经常互换使用,但它们是截然不同的。数据挖掘是从数据中发现知识的广泛过程。机器学习是一系列技术和算法(如监督学习无监督学习)的集合,通常用于数据挖掘过程中寻找模式。从本质上讲,机器学习是实现数据挖掘目标的工具。
  • 数据分析:数据分析是一个更广泛的领域,侧重于检查数据集以得出结论并支持决策。数据挖掘是数据分析的一个特定子集,强调发现以前未知的模式,而数据分析也可能涉及测试预定义假设和创建摘要报告。
  • 大数据:这个术语指的是庞大、复杂和快速增长的数据集本身。数据挖掘是从大数据中提取价值的过程。大数据所面临的挑战(数量、速度、种类)通常需要专门的数据挖掘工具,如Apache Hadoop生态系统。
  • 深度学习 (DL):这是机器学习的一个专门子领域,使用多层神经网络。深度学习模型(如Ultralytics YOLO 中使用的模型)可以自动从图像等原始数据中进行特征提取,这是计算机视觉(CV)数据挖掘工作流程中的一项强大功能。Ultralytics HUB等平台简化了从管理数据集到 训练模型的整个过程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板