敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

大数据

探索大数据在 AI/ML 中的力量! 了解海量数据集如何推动机器学习、处理工具和实际应用。

大数据是指极其庞大和复杂的数据集,无法使用传统的数据处理工具轻松地进行管理、处理或分析。它通常由“5V”定义:Volume(大量数据)、Velocity(数据生成的高速度)、Variety(多样化的数据类型)、Veracity(数据的质量和准确性)和 Value(将数据转化为有意义结果的潜力)。在人工智能 (AI)的背景下,大数据是为复杂的机器学习 (ML)模型提供动力的重要燃料,使它们能够学习、预测和执行复杂的任务,并具有更高的准确性。

大数据在人工智能和机器学习中的作用

大数据是人工智能进步的基础,尤其是在深度学习 (DL)领域。诸如卷积神经网络 (CNN)之类的深度学习模型需要海量的数据集来学习复杂的模式和特征。模型接受训练的高质量数据越多,它就越擅长泛化并对未见过的数据做出准确的预测。对于计算机视觉 (CV)任务尤其如此,在这些任务中,模型必须从数百万张图像中学习才能可靠地执行目标检测图像分割等任务。

大数据可用性一直是像 Ultralytics YOLO 这样的先进模型取得成功的关键驱动因素。在像 COCOImageNet 这样的大规模 基准数据集 上训练这些模型,可以使它们获得较高的 准确率 和鲁棒性。处理这些数据集需要强大的基础设施,通常需要利用 云计算 和像 GPU 这样的专用硬件。

真实世界的AI/ML应用

  1. 自动驾驶车辆: 自动驾驶汽车每天从包括摄像头、激光雷达和雷达在内的一套传感器中生成数 TB 的数据。这种持续的大数据流用于训练和验证感知模型,以执行识别行人、其他车辆和道路标志等任务。特斯拉等公司利用其车队的数据,通过持续学习和模型部署的过程不断改进其自动驾驶系统。请访问我们的汽车解决方案中的人工智能页面,了解更多信息。
  2. 医学影像分析:医疗保健领域的人工智能应用中,大数据涉及汇总来自不同患者群体的海量医学扫描数据集,如 MRI、X 射线和 CT 扫描。在诸如 脑肿瘤数据集 等数据集上训练的人工智能模型可以学习检测人眼可能遗漏的细微疾病迹象。这有助于放射科医生做出更快、更准确的诊断。美国国立卫生研究院 (NIH) 影像数据共享平台就是一个为医学研究提供大数据平台的例子。

大数据与相关概念

将大数据与相关术语区分开来是有帮助的:

  • 传统数据: 此类数据通常较小、结构化,并且可以通过传统的关系数据库进行管理。而大数据由于其规模和复杂性,需要像 Apache Spark 或 Hadoop 生态系统这样的专用处理框架。
  • 数据挖掘: 这是从大型数据集(包括大数据)中发现模式和知识的过程数据挖掘 技术应用于大数据以提取价值。
  • 数据湖: 数据湖 是一个集中式存储库,用于存储海量的原始、非结构化和结构化数据。它为大数据上的各种分析任务提供了所需的灵活性。Google Cloud 的数据分析 平台提供了强大的数据湖解决方案。
  • 数据分析:这是一个更广泛的领域,旨在检查数据集以得出结论。大数据分析通常涉及预测建模和 ML 等高级技术来处理其复杂性。

管理大数据涉及存储、处理成本以及确保数据安全数据隐私方面的挑战。然而,克服这些障碍将释放巨大的创新潜力,这对于构建下一代人工智能系统至关重要。诸如Ultralytics HUB之类的平台旨在帮助管理人工智能模型的生命周期,从大型数据集上的训练到高效的部署

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板