深圳Yolo 视觉
深圳
立即加入
词汇表

数据挖掘

探索数据挖掘技术及其应用。学习如何提取洞察、识别模式,并结合 Ultralytics YOLO26 优化AI工作流程。

数据挖掘是探索和分析大量信息以发现有意义的模式和趋势的过程。它位于统计学、机器学习 (ML)和数据库系统的交叉点,是“数据库中的知识发现”(KDD) 流程中的关键一步。通过筛选海量的原始输入,数据挖掘将非结构化噪声转化为结构化、可操作的洞察,供企业和研究人员用于做出明智决策。

在现代人工智能 (AI)的背景下,数据挖掘通常是预测建模的先驱。在算法能够预测未来之前,它必须理解过去。例如,在计算机视觉 (CV)中,挖掘技术可能会分析数千张图像,以识别定义特定对象类别的常见特征——例如边缘、纹理或形状——为训练鲁棒的数据集奠定基础。

数据挖掘中的关键技术

数据挖掘依赖于多种复杂的方法来揭示数据中隐藏的关系。这些技术使分析师能够超越简单的数据汇总,进行深度发现。

  • classify这涉及将数据项分类到预定义的组或类中。在视觉 AI 中,这类似于根据历史标记示例训练模型以区分“汽车”和“行人”的过程。
  • 聚类分析与 classify 不同,聚类根据相似性对数据点进行分组,而无需预定义标签。这对于无监督学习至关重要,其中算法可以自动对客户购买行为或相似图像纹理进行分组。您可以在Scikit-learn 的文档中阅读更多关于聚类方法的信息。
  • 异常检测: 这种技术识别显著偏离常规的数据点。它对于金融领域的欺诈检测或在生产线上发现制造缺陷至关重要。
  • 关联规则学习:这种方法发现数据库中变量之间的关系。一个经典的例子是市场购物篮分析,零售商用它来确定购买面包的顾客也很可能购买黄油。
  • 回归分析用于根据其他变量预测连续数值,回归对于预测销售趋势或在深度估计任务中估算物体距离至关重要。

实际应用

数据挖掘的实用性几乎涵盖了所有行业,通过揭示肉眼不可见的模式,推动效率和创新。

制造和质量控制

智能制造中,数据挖掘用于分析机械的传感器数据。通过应用预测性维护算法,工厂可以在设备故障发生之前进行预测。此外,像YOLO26这样的计算机视觉模型可以生成推理日志,这些日志经过挖掘可识别重复出现的缺陷类型,帮助工程师调整生产流程以减少浪费。

医疗诊断

数据挖掘通过分析电子健康记录和医学影像来改变医疗保健。研究人员挖掘基因组数据,以发现特定基因序列与疾病之间的关联。在放射学中,挖掘大量的X射线数据集有助于识别肺炎或肿瘤等疾病的早期指标,这有助于医学图像分析

区分相关术语

要充分理解数据挖掘,将其与数据科学领域中密切相关的概念区分开来会有所帮助。

  • 数据挖掘 vs. 机器学习尽管它们有重叠,数据挖掘侧重于发现现有模式,而机器学习侧重于利用这些模式来学习和预测未来结果。数据挖掘通常是探索性阶段,为机器学习模型的特征工程提供信息。
  • 数据挖掘 vs. 数据可视化可视化是数据的图形表示(图表、图形)。挖掘是生成待可视化洞察的分析过程。像Tableau这样的工具通常可视化数据挖掘的结果。
  • 数据挖掘 vs. 数据仓库数据仓库涉及从多个来源集中存储和管理大量数据。数据挖掘是对这些仓库数据执行以提取价值的过程。

Ultralytics 数据挖掘实践

在计算机视觉工作流中,“挖掘”通常发生在分析推理结果时,以发现高价值的 detect 或难以处理的边缘情况。这一过程通过Ultralytics Platform得到简化,该平台有助于管理和分析数据集。

以下示例演示了如何“挖掘”图像集合,使用 YOLO26模型 查找特定的高置信度detect。这模拟了从海量数据流中筛选相关事件的过程。

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

此代码片段展示了一个基本的挖掘操作:过滤原始预测以提取感兴趣的子集——即高置信度识别出人物的图像——然后可用于 active learning 以进一步提高模型性能。

让我们一起共建AI的未来!

开启您的机器学习未来之旅