敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

数据挖掘

了解数据挖掘如何将原始数据转化为可执行的洞见,从而为医疗保健、零售等领域的 AI、ML 和实际应用提供动力!

数据挖掘是在大型数据集中发现模式、相关性和异常,以提取有价值且先前未知的信息的过程。它充当一个关键的探索性步骤,将原始数据转换为可理解的结构,通常作为预测建模机器学习(ML)任务的基础。通过利用统计学、数据库系统和AI的技术,数据挖掘有助于发现隐藏的见解,从而为业务战略、科学研究和技术创新提供信息。

数据挖掘的工作原理

数据挖掘过程通常根据诸如跨行业数据挖掘标准流程 (CRISP-DM) 之类的框架进行构建。典型的阶段包括:

  1. 数据收集和集成:从各种来源收集数据,这些来源可能包括结构化数据库、非结构化文本或来自数据湖的图像。
  2. 数据预处理: 这包括数据清洗以处理缺失或不一致的值,以及数据转换以规范化或聚合数据以进行分析。在此阶段还可以使用数据增强来丰富数据集。
  3. 模式发现和建模: 应用算法来识别模式。常见的任务包括分类、聚类(K-Means)、回归和关联规则挖掘。这是 ML 算法使用最多的阶段。
  4. 评估与解读:评估已发现模式的有效性和实用性。数据可视化是这里的关键工具,有助于使发现的结果易于理解。
  5. 知识部署: 将发现的知识集成到运营系统中,例如推荐引擎或欺诈检测系统。

真实世界的 AI 和计算机视觉应用

数据挖掘是跨多个行业开发智能系统的基础。

  • 零售业中的人工智能和购物篮分析: 零售商挖掘大量的交易记录,以发现哪些产品经常一起购买。例如,发现购买面包的顾客也经常购买牛奶(一种关联规则)可以为产品放置策略、促销捆绑和有针对性的广告提供信息。这种对客户行为的分析也推动了个性化的推荐系统。了解更多关于人工智能如何提高零售效率的信息。
  • 医学影像分析: 在 医疗保健 AI 领域,数据挖掘技术应用于大规模医疗记录和图像数据集,例如 脑肿瘤数据集。通过挖掘这些数据,研究人员可以识别将某些图像特征或患者人口统计数据与疾病联系起来的模式和相关性。这有助于构建诊断模型(如用于肿瘤检测的模型),并支持 美国国立卫生研究院 (NIH) 等组织推进医学科学。

数据挖掘 vs. 相关概念

区分数据挖掘和其他相关数据科学术语非常重要。

  • 机器学习 (ML): 虽然这两个术语经常互换使用,但它们是不同的。数据挖掘是从数据中发现知识的更广泛过程。机器学习是技术和算法(例如监督学习无监督学习)的集合,这些技术和算法通常数据挖掘过程中使用,以发现模式。本质上,ML 是一种实现数据挖掘目标的工具。
  • 数据分析: 数据分析是一个更广泛的领域,侧重于检查数据集以得出结论并支持决策。 数据挖掘是数据分析的一个特定子集,它强调发现先前未知的模式,而数据分析还可以涉及测试预定义的假设和创建摘要报告。
  • 大数据: 此术语指的是庞大、复杂且快速增长的数据集本身。数据挖掘是应用于大数据以从中提取价值的过程。大数据的挑战(数量、速度、种类)通常需要专门的数据挖掘工具,如Apache Hadoop生态系统。
  • 深度学习 (DL): 这是机器学习的一个专门子领域,它使用具有多层的神经网络。DL 模型(如 Ultralytics YOLO 中使用的模型)可以自动从图像等原始数据中执行特征提取,这是 计算机视觉 (CV) 的数据挖掘工作流程中的一项强大功能。像 Ultralytics HUB 这样的平台简化了整个过程,从管理数据集训练模型

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板