培训数据
了解训练数据在人工智能中的重要性。了解高质量的数据集如何为实际任务提供准确、强大的机器学习模型。
训练数据是用于指导机器学习(ML)模型如何做出准确预测或决策的基础数据集。在监督学习中,这些数据包括与相应正确输出(通常称为标签或注释)配对的输入样本。模型从这些示例中迭代学习,调整其内部模型权重,使其预测与实际标签之间的差异最小化。训练数据的质量、数量和多样性是影响模型性能及其泛化到新的未见数据能力的最关键因素。
高质量培训数据的重要性
垃圾进,垃圾出 "的原则尤其适用于训练 ML 模型。高质量的数据对于构建稳健可靠的系统至关重要。主要特征包括
- 相关性:数据必须准确反映模型要解决的问题。
- 多样性:它应涵盖模型在现实世界中会遇到的各种情况、边缘案例和变化,以避免过度拟合。
- 准确标注:标注必须正确一致。数据标注过程往往是计算机视觉项目中最耗时的部分。
- 足够的数据量:模型通常需要大量数据才能学习到有意义的模式。数据扩充等技术可以帮助人为扩展数据集。
- 低偏差:数据应平衡且具有代表性,以防止数据集出现偏差,从而导致不公平或不正确的模型行为。了解算法偏差是负责任的人工智能开发的一个关键方面。
Ultralytics HUB等平台提供了在整个模型开发生命周期内管理数据集的工具,而CVAT等开源工具则是注释任务的常用工具。
真实案例
- 自动驾驶汽车:为了训练自动驾驶汽车的物体检测模型,开发人员需要使用来自摄像头和传感器的大量训练数据。这些数据由图像和视频组成,其中每一帧都经过精心标注。行人、骑车人、其他车辆和交通标志都被包围在边界框中。通过在Argoverse或nuScenes 等数据集上进行训练,车辆的人工智能可以学会安全地感知和导航周围环境。
- 医学图像分析:在医疗保健领域,医学图像分析的训练数据可能包括数千张核磁共振成像或 CT 扫描图像。放射科医生对这些图像进行注释,以突出肿瘤、骨折或其他病变。使用Ultralytics YOLO 等构建的 ML 模型可以在脑肿瘤数据集上进行训练,学会识别这些异常情况,成为协助医生做出更快、更准确诊断的强大工具。癌症成像档案(TCIA)等资源为研究提供了对此类数据的公共访问。
训练数据与验证和测试数据
在典型的 ML 项目中,数据被分成三个不同的集合:
- 训练数据:最大部分,通过调整参数直接用于训练模型。有效的训练通常需要仔细考虑模型训练的技巧。
- 验证数据:在训练过程中定期使用的独立子集,用于评估模型在未明确学习的数据上的表现。这有助于通过超参数优化(维基百科)等过程调整超 参数(如学习率、批量大小),并提供防止过度拟合的预警。本评估采用验证模式。
- 测试数据:独立数据集:在训练和验证过程中未见,仅在模型完全训练完成后使用。它对模型在现实世界中的泛化能力和预期性能进行最终的、无偏见的评估。在部署之前,严格的模型测试至关重要。
要开发可靠的模型,必须严格区分这些数据集。最先进的模型通常是在COCO或ImageNet 等大型基准数据集上预先训练的,这些数据集可作为广泛的训练数据。您可以在Google Dataset Search和Kaggle Datasets 等平台上找到更多数据集。