Data Mining
探索数据挖掘技术及应用。学习如何使用 Ultralytics YOLO26 提取洞察、识别模式并优化 AI 工作流程。
数据挖掘是探索和分析海量信息以收集有意义的模式和趋势的过程。它处于统计学、机器学习 (ML) 和数据库系统的交叉点,是“数据库知识发现”(KDD) 流水线中的关键步骤。通过筛选海量的原始输入,数据挖掘将非结构化的噪声转化为结构化、可操作的见解,供企业和研究人员用于制定明智的决策。
在现代 人工智能 (AI) 的背景下,数据挖掘通常是预测建模的前奏。在算法能够预测未来之前,它必须了解过去。例如,在 计算机视觉 (CV) 中,挖掘技术可以分析成千上万张图像,以识别定义特定对象类别的常见特征(例如边缘、纹理或形状),从而为训练稳健的 数据集 奠定基础。
Link to this section数据挖掘的关键技术#
数据挖掘依赖于几种复杂的科学方法来揭示数据中隐藏的关系。这些技术使分析师能够超越简单的数据汇总,深入挖掘发现。
- 分类: 这涉及将数据项归入预定义的组或类别中。在视觉 AI 中,这类似于训练模型根据历史标注的样本来区分“汽车”和“行人”的过程。
- 聚类分析: 与分类不同,聚类基于相似性对数据点进行分组,而无需预定义的标签。这对于 无监督学习 至关重要,在该学习过程中,算法可能会自动对客户购买行为或类似的图像纹理进行分组。你可以在 Scikit-learn 文档 中了解有关聚类方法的更多信息。
- 异常检测: 此技术用于识别与常态显著偏离的数据点。它对于金融领域的欺诈检测或在生产线上查找制造缺陷至关重要。
- 关联规则学习: 此方法可发现数据库中变量之间的关系。一个典型的例子是 市场篮子分析,零售商使用它来确定购买面包的顾客也很可能会购买黄油。
- 回归分析: 回归用于根据其他变量预测连续的数值,对于预测销售趋势或在 深度估计 任务中估算物体距离至关重要。
Link to this section实际应用#
数据挖掘的实用性涵盖了几乎所有行业,通过揭示肉眼看不见的模式来提高效率并推动创新。
Link to this section制造业与质量控制#
在 智能制造 中,数据挖掘用于分析来自机械的传感器数据。通过应用 预测性维护 算法,工厂可以在设备故障发生前进行预测。此外,像 YOLO26 这样的计算机视觉模型可以生成推理日志,通过挖掘这些日志来识别反复出现的缺陷类型,从而帮助工程师调整生产流程以减少浪费。
Link to this section医疗诊断#
数据挖掘通过分析电子健康记录和医学影像来改变 医疗保健 领域。研究人员挖掘基因组数据以寻找特定基因序列与疾病之间的关联。在放射学中,挖掘海量的 X 光数据集有助于识别肺炎或肿瘤等病症的早期指标,这有助于 医学图像分析。
Link to this section区分相关术语#
为了全面了解数据挖掘,将其与数据科学领域中密切相关的概念区分开来是有帮助的。
- 数据挖掘与 机器学习 的区别: 虽然它们有重叠之处,但数据挖掘侧重于 发现 现有模式,而机器学习侧重于 利用 这些模式来学习并预测未来的结果。挖掘通常是为机器学习模型提供特征工程信息的探索阶段。
- 数据挖掘与 数据可视化 的区别: 可视化是数据的图形化表示(图表、图形)。挖掘是生成可视化所需见解的分析过程。像 Tableau 这样的工具通常用于可视化数据挖掘的结果。
- 数据挖掘与 数据仓库 的区别: 仓库涉及对来自多个来源的海量数据进行集中存储和管理。挖掘是在该仓库数据 上 执行以提取价值的过程。
Link to this section使用 Ultralytics 进行数据挖掘实践#
在计算机视觉工作流程中,“挖掘”通常发生在分析推理结果以查找高价值检测结果或困难边缘案例时。此过程使用 Ultralytics Platform 进行了精简,该平台有助于管理和分析数据集。
以下示例演示了如何使用 YOLO26 模型 “挖掘”一系列图像以查找特定的高置信度检测结果。这模拟了从海量数据流中过滤相关事件的过程。
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]
# Run inference on the batch
results = model(image_files)
# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
# Filter boxes where class is 0 (person) and confidence > 0.8
detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
if len(detections) > 0:
high_conf_people.append(result.path)
print(f"Found high-confidence people in: {high_conf_people}")此代码片段演示了一个基本的数据挖掘操作:过滤原始预测以提取感兴趣的子集(包含以高置信度识别的人员的图像),然后将其用于 主动学习 以进一步提高模型性能。






