遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Data Leakage

探索机器学习中的数据泄露是什么,并学习如何预防它。了解确保你的 Ultralytics YOLO 流水线安全的最佳实践。

机器学习 (ML) 中,当 训练数据 之外的信息被不当用于创建模型时,就会发生数据泄露。这种隐藏的算法缺陷会在训练和 模型测试 期间产生卓越性能的误导性错觉,但当模型面对真实的、未见过的数据时,会导致严重的泛化失败。与网络安全中将数据泄露定义为 未经授权的数据暴露 不同,机器学习中数据泄露的定义 完全集中在训练污染和受损的预测完整性上。

Link to this section数据泄露是如何发生的#

要理解机器学习中的数据泄露,了解现代流水线中出现这种故障点的两种主要机制会有所帮助:

  • 训练-测试污染 这发生在 测试数据 意外流入训练集时。一个常见原因是:在对整个数据集进行拆分之前,对其执行 数据预处理(例如归一化或计算平均值),而不是独立应用这些转换。
  • 目标泄露 这发生在预测特征包含在推理时逻辑上不可用的信息时。例如,包含一个作为目标变量直接结果的特征,本质上是预先给了模型答案键。

Link to this section数据泄露的实际案例#

理解如何发现和防止泄露对于构建值得信赖的 AI 至关重要。以下是该概念如何破坏生产部署的两个具体案例:

  • 医疗保健领域的 AI 如果医疗机构训练一种算法来检测肺部疾病,使用患者的 X 光片,但所有阳性扫描结果都包含医生在诊断 放置的手术标记,就会发生目标泄露。模型仅仅学会了识别手术标记,而不是疾病的生物学迹象。
  • 计算机视觉视频分析 在诸如 动作识别 等视觉任务中,将相邻视频帧随机拆分到训练集和验证集中会导致严重的训练-测试污染。因为连续帧几乎相同,模型会记住重叠的背景,而不是学习复杂的人类动作,这违反了标准的 OpenAI 模型评估实践

Link to this section数据泄露的预防与保护#

数据泄露的保护依赖于在整个工程生命周期中保持严格的数据卫生并利用结构化环境。

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model using a strict dataset configuration (data.yaml)
# The YAML file enforces rigid, isolated paths for 'train' and 'val' directories,
# ensuring data leakage protection between the learning and evaluation phases.
results = model.train(data="dataset.yaml", epochs=50, imgsz=640)

Link to this section区分数据泄露与相关概念#

由于术语在数据科学和网络安全之间经常重叠,因此区分数据泄露与密切相关的概念非常重要。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅