深圳Yolo 视觉
深圳
立即加入
词汇表

训练数据 (Training Data)

了解训练数据在人工智能中的重要性。 学习高质量数据集如何为现实世界任务提供准确、强大的机器学习模型。

训练数据是用于教授机器学习(ML)模型如何处理数据的基础输入。 机器学习 (ML)模型如何处理信息 信息、识别模式并做出预测。在 在监督学习中,该数据集包括 输入示例与相应的预期输出(通常称为标签或注释)配对而成。当 模型在处理这些信息时,会反复调整其内部 模型权重,以尽量减少误差并提高准确性。 训练数据的质量、数量和多样性通常是决定系统成功与否的最重要因素。 是现代人工智能(AI)的动力。 人工智能(AI)的动力。

高质量培训数据的特点

垃圾进,垃圾出 "是数据科学的基本格言。 的好坏。要建立强大的 计算机视觉 (CV)系统,数据集必须符合 严格的标准。

  • 相关性和准确性:数据必须准确地代表模型要解决的现实世界问题。 解决的问题。不准确或 "嘈杂 "的标签会混淆学习过程。用于 数据标签工具有助于确保注释,如边界框或分割掩码。 精确。
  • 多样性和数量:有限的数据集会导致 过拟合。 但在新数据上却表现不佳。大型、多样化的数据集有助于模型更好地泛化。开发人员 通常会采用数据增强技术,如 翻转、旋转或调整图像亮度,人为地扩大数据集并引入多样性。
  • 减少偏差:必须对数据集进行精心策划,以避免 数据集偏差,因为数据集偏差可能导致不公平或偏斜的预测。 预测。解决这一问题是 负责任的人工智能开发的关键组成部分,并确保在不同人口 不同人群的公平结果。

区分训练、验证和测试数据

将训练数据与模型开发周期中使用的其他数据集拆分区分开来至关重要。 模型开发生命周期中使用的其他数据集拆分。每个子集都有其独特的用途:

  • 训练数据:最大的子集(通常为 70-80%),直接用于拟合模型参数。
  • 验证数据验证数据 子集,用于对模型拟合度进行无偏见的评估。它有助于开发人员调整 超参数,如 学习率等超参数,并在性能趋于平稳时触发提前停止。 性能停滞时触发提前停止。
  • 测试数据完全未见的数据集 仅在训练完成后使用。它为模型的 准确性和推广到真实世界的能力。 场景。

实际应用

培训数据是几乎所有行业创新的基础。

  1. 自动驾驶:自动驾驶汽车依赖于大量数据集,如 nuScenesWaymo Open Dataset海量数据集来实现 安全导航。这些数据集包含数千小时的视频,视频中的每一辆车、每一个行人、每一个交通标志都有注释。 标志都有注释。通过在这些不同的数据上进行训练、 自动驾驶汽车学会detect 障碍物 并实时解读复杂的交通场景。
  2. 医疗诊断:医学图像分析中,放射科医生 在医学图像分析中,放射科医生会收集由 X 光片、CT 扫描或核磁共振成像组成的训练数据,并标注特定条件。例如 例如,在癌症成像档案(TCIA)等资源上训练的模型可 帮助医生高精度地识别潜在肿瘤。这种 人工智能在医疗保健领域的应用大大加快了 诊断并改善患者的治疗效果。

使用Ultralytics YOLO进行培训

"(《世界人权宣言》) ultralytics 库简化了利用训练数据的过程。该框架能高效地处理数据 加载、扩充和训练循环。下面的示例演示了如何使用 使用 YOLO11 模型的标准数据集配置文件 文件。

from ultralytics import YOLO

# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

对于那些希望获取高质量培训数据的人来说,像 Google 数据集搜索Kaggle Datasets等平台提供了广泛的资源库,涵盖了从 图像分割到自然语言 处理等任务。正确管理这些数据是构建高性能人工智能解决方案的第一步。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入