训练数据 (Training Data)
了解训练数据在人工智能中的重要性。 学习高质量数据集如何为现实世界任务提供准确、强大的机器学习模型。
训练数据是用于教机器学习(ML)模型如何做出准确预测或决策的基础数据集。在监督学习中,此数据由输入样本和相应的正确输出(通常称为标签或注释)配对组成。模型从这些示例中迭代学习,调整其内部模型权重,以最大限度地减少其预测与实际标签之间的差异。训练数据的质量、数量和多样性是影响模型性能及其泛化到新的、未见过的数据的能力的最关键因素。
高质量训练数据的重要性
“垃圾进,垃圾出”的原则对于训练 ML 模型尤其如此。高质量的数据对于构建稳健可靠的系统至关重要。关键特征包括:
- 相关性: 数据必须准确地反映模型旨在解决的问题。
- 多样性: 它应涵盖模型在现实世界中将遇到的各种场景、边缘情况和变化,以避免过拟合。
- 准确的标注: 标注必须正确且一致。数据标注过程通常是计算机视觉项目中耗时最多的部分。
- 足够的量: 通常需要大量数据才能使模型学习有意义的模式。诸如 数据增强 之类的技术可以帮助人为地扩展数据集。
- 低偏差: 数据应该是平衡且具有代表性的,以防止数据集偏差,这可能导致不公平或不正确的模型行为。理解算法偏差是负责任的 AI 开发的关键方面。
诸如 Ultralytics HUB 这样的平台提供工具来管理整个模型开发生命周期中的数据集,而像 CVAT 这样的开源工具则常用于标注任务。
真实世界的例子
- 自动驾驶车辆: 为了训练用于自动驾驶车辆的目标检测模型,开发人员使用来自摄像头和传感器的大量训练数据。此数据由图像和视频组成,其中每个帧都经过精心标注。行人、骑自行车的人、其他汽车和交通标志都包含在边界框中。通过在 Argoverse 或 nuScenes 等数据集上进行训练,车辆的人工智能可以学习安全地感知和导航其环境。
- 医学影像分析: 在医疗保健领域,用于医学影像分析的训练数据可能包含数千张 MRI 或 CT 扫描图像。放射科医生注释这些图像以突出显示肿瘤、骨折或其他病理。可以使用 Ultralytics YOLO 构建的机器学习模型可以在脑肿瘤数据集上进行训练,以学习识别这些异常情况,从而成为协助医生做出更快、更准确诊断的强大工具。癌症影像档案馆 (TCIA)等资源提供对此类数据的公共访问权限,以供研究。
训练数据 vs. 验证和测试数据
在一个典型的机器学习项目中,数据被分成三个不同的集合:
- 训练数据: 最大的部分,直接用于通过调整模型的参数来训练模型。 有效的训练通常需要仔细考虑模型训练技巧。
- 验证数据: 一个单独的子集,在训练期间定期使用,以评估模型在未明确学习的数据上的性能。这有助于通过诸如超参数优化(维基百科)之类的过程来调整超参数(例如,学习率,批量大小),并提供针对过度拟合的早期警告。验证模式用于此评估。
- 测试数据: 一个独立的、在训练和验证期间未见过的数据集,仅在模型完全训练后使用。它提供了对模型的泛化能力和在现实世界中预期性能的最终、无偏评估。在部署之前,严格的模型测试至关重要。
严格区分这些数据集对于开发可靠的模型至关重要。最先进的模型通常在大型基准数据集(如COCO或ImageNet)上进行预训练,这些数据集用作广泛的训练数据。您可以在Google Dataset Search和Kaggle Datasets等平台上找到更多数据集。