Data Mining

探索数据挖掘技术及应用。学习如何使用 Ultralytics YOLO26 提取洞察、识别模式并优化 AI 工作流程。

数据挖掘是探索和分析海量信息以收集有意义的模式和趋势的过程。它处于统计学、机器学习 (ML) 和数据库系统的交叉点，是“数据库知识发现”(KDD) 流水线中的关键步骤。通过筛选海量的原始输入，数据挖掘将非结构化的噪声转化为结构化、可操作的见解，供企业和研究人员用于制定明智的决策。

在现代人工智能 (AI) 的背景下，数据挖掘通常是预测建模的前奏。在算法能够预测未来之前，它必须了解过去。例如，在计算机视觉 (CV) 中，挖掘技术可以分析成千上万张图像，以识别定义特定对象类别的常见特征（例如边缘、纹理或形状），从而为训练稳健的数据集奠定基础。

Link to this section数据挖掘的关键技术#

数据挖掘依赖于几种复杂的科学方法来揭示数据中隐藏的关系。这些技术使分析师能够超越简单的数据汇总，深入挖掘发现。

分类： 这涉及将数据项归入预定义的组或类别中。在视觉 AI 中，这类似于训练模型根据历史标注的样本来区分“汽车”和“行人”的过程。
聚类分析： 与分类不同，聚类基于相似性对数据点进行分组，而无需预定义的标签。这对于无监督学习至关重要，在该学习过程中，算法可能会自动对客户购买行为或类似的图像纹理进行分组。你可以在 Scikit-learn 文档中了解有关聚类方法的更多信息。
异常检测： 此技术用于识别与常态显著偏离的数据点。它对于金融领域的欺诈检测或在生产线上查找制造缺陷至关重要。
关联规则学习： 此方法可发现数据库中变量之间的关系。一个典型的例子是市场篮子分析，零售商使用它来确定购买面包的顾客也很可能会购买黄油。
回归分析： 回归用于根据其他变量预测连续的数值，对于预测销售趋势或在深度估计任务中估算物体距离至关重要。

Link to this section实际应用#

数据挖掘的实用性涵盖了几乎所有行业，通过揭示肉眼看不见的模式来提高效率并推动创新。

Link to this section制造业与质量控制#

在智能制造中，数据挖掘用于分析来自机械的传感器数据。通过应用预测性维护算法，工厂可以在设备故障发生前进行预测。此外，像 YOLO26 这样的计算机视觉模型可以生成推理日志，通过挖掘这些日志来识别反复出现的缺陷类型，从而帮助工程师调整生产流程以减少浪费。

Link to this section医疗诊断#

数据挖掘通过分析电子健康记录和医学影像来改变医疗保健领域。研究人员挖掘基因组数据以寻找特定基因序列与疾病之间的关联。在放射学中，挖掘海量的 X 光数据集有助于识别肺炎或肿瘤等病症的早期指标，这有助于医学图像分析。

Link to this section区分相关术语#

为了全面了解数据挖掘，将其与数据科学领域中密切相关的概念区分开来是有帮助的。

数据挖掘与机器学习的区别： 虽然它们有重叠之处，但数据挖掘侧重于发现现有模式，而机器学习侧重于利用这些模式来学习并预测未来的结果。挖掘通常是为机器学习模型提供特征工程信息的探索阶段。
数据挖掘与数据可视化的区别： 可视化是数据的图形化表示（图表、图形）。挖掘是生成可视化所需见解的分析过程。像 Tableau 这样的工具通常用于可视化数据挖掘的结果。
数据挖掘与数据仓库的区别： 仓库涉及对来自多个来源的海量数据进行集中存储和管理。挖掘是在该仓库数据上执行以提取价值的过程。

Link to this section使用 Ultralytics 进行数据挖掘实践#

在计算机视觉工作流程中，“挖掘”通常发生在分析推理结果以查找高价值检测结果或困难边缘案例时。此过程使用 Ultralytics Platform 进行了精简，该平台有助于管理和分析数据集。

以下示例演示了如何使用 YOLO26 模型 “挖掘”一系列图像以查找特定的高置信度检测结果。这模拟了从海量数据流中过滤相关事件的过程。

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# List of image paths (simulating a dataset)
image_files = ["image1.jpg", "image2.jpg", "image3.jpg"]

# Run inference on the batch
results = model(image_files)

# 'Mine' the results for high-confidence 'person' detections (class 0)
high_conf_people = []
for result in results:
    # Filter boxes where class is 0 (person) and confidence > 0.8
    detections = result.boxes[(result.boxes.cls == 0) & (result.boxes.conf > 0.8)]
    if len(detections) > 0:
        high_conf_people.append(result.path)

print(f"Found high-confidence people in: {high_conf_people}")

此代码片段演示了一个基本的数据挖掘操作：过滤原始预测以提取感兴趣的子集（包含以高置信度识别的人员的图像），然后将其用于主动学习以进一步提高模型性能。

Explore solutions

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

Data Mining

Link to this section数据挖掘的关键技术#

Link to this section实际应用#

Link to this section制造业与质量控制#

Link to this section医疗诊断#

Link to this section区分相关术语#

Link to this section使用 Ultralytics 进行数据挖掘实践#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！