敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

数据漂移

了解机器学习中数据漂移的类型、原因和解决方案。 学习如何检测和缓解数据漂移,以获得强大的 AI 模型。

数据漂移是机器学习(ML)中常见的挑战,当模型在生产环境中遇到的数据的统计属性,与构建模型所用的训练数据相比,随时间发生变化时,就会发生数据漂移。这种变化意味着模型正在处理它没有准备好的数据,这可能导致其预测性能的无声但显著的下降。有效管理数据漂移是MLOps生命周期的关键组成部分,确保人工智能(AI)系统在模型部署后保持可靠性。如果没有积极的模型监控,这个问题可能会未被发现,从而导致错误的决策和负面的业务结果。

数据漂移 vs. 概念漂移

区分数据漂移与一个相关问题——概念漂移非常重要。虽然两者都会降低模型性能,但其原因不同。

  • 数据漂移: 也称为特征漂移或协变量漂移,当输入数据的分布发生变化,但输入和输出之间的根本关系保持不变时,就会发生这种情况。例如,一个在一种类型的相机图像上训练的 计算机视觉 模型,在处理来自具有不同传感器属性的新相机的图像时,性能可能会很差。被检测物体的定义是相同的,但输入数据的特征已经发生了变化。
  • 概念漂移: 当目标变量的统计属性随时间变化时,就会发生这种情况。输入特征和输出变量之间的基本关系会发生改变。例如,在金融欺诈检测系统中,欺诈者使用的策略会不断演变,从而改变构成“欺诈”交易的要素。学术文献中可以找到对概念漂移的详细探讨

真实世界的例子

  1. 零售库存管理:一个AI驱动的零售系统使用摄像头和目标检测模型(如Ultralytics YOLO11)来监控货架库存。该模型基于特定的一组产品包装进行训练。如果供应商更改包装设计或商店升级照明,则会引入数据漂移。新的视觉数据与原始训练数据集不同,可能导致模型无法识别产品,从而导致不准确的库存计数。
  2. 自动驾驶车辆: 自动驾驶汽车使用在来自特定地理位置和天气条件的大量传感器数据上训练的模型。如果汽车部署在一个新的城市,或者第一次遇到罕见的天气事件(如下雪),其感知系统将面临数据漂移。输入(例如,道路标记、交通标志、行人行为)的分布与其训练经验显着不同,这可能会危及安全并需要立即关注。Waymo 和其他自动驾驶公司在检测和缓解这种情况方面投入了大量资金。

检测和缓解数据漂移

检测和解决数据漂移是一个持续的过程,需要结合监控和维护策略。

检测方法

缓解策略

  • 重新训练:最直接的策略是定期使用反映当前生产环境的新鲜数据重新训练模型。诸如Ultralytics HUB之类的平台可促进轻松的重新训练和部署工作流程
  • 在线学习: 这种方法涉及在新数据到达时逐步更新模型。使用时应谨慎,因为它可能对噪声数据敏感,并可能导致模型的性能出现不可预测的波动。
  • 数据增强:在初始训练阶段主动使用数据增强技术可以使模型对某些类型的变化(例如光照、比例或方向的变化)更加稳健。
  • 领域自适应: 采用先进的技术,明确尝试将源数据分布上训练的模型调整为不同但相关的目标数据分布。 这是机器学习研究的一个活跃领域。

有效管理数据漂移对于确保使用PyTorchTensorFlow等框架构建的AI系统保持准确并在其整个运营生命周期内提供价值至关重要。您可以在我们的博客中了解更多关于模型维护最佳实践的信息。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板