术语表

数据湖

了解什么是数据湖、数据湖的特点、优势以及在 AI/ML 中的作用。了解它们如何改变大数据管理和分析。

数据湖是一个集中式存储库,允许您以任何规模存储所有结构化、半结构化和非结构化数据。与以预定义、处理过的格式存储数据的传统数据仓库不同,数据湖以其原始格式存储大量原始数据,直到需要时才取出。对于人工智能(AI)和机器学习(ML)而言,这种架构具有难以置信的强大功能,因为它为数据科学家提供了一个灵活、海量的原始数据池,是训练复杂模型、执行探索性分析和发现新模式的完美选择,而不受初始模式的限制。

数据湖如何在人工智能和机器学习中发挥作用

在典型的人工智能工作流程中,数据湖是所有潜在数据源的主要真实来源。该流程从数据摄取开始,将各种来源的原始数据(如用户日志、社交媒体馈送、物联网传感器读数、图像和视频)加载到数据湖中。这些数据以未经修改的原始状态存储。当一个项目开始时,例如训练一个新的计算机视觉(CV)模型,工程师可以访问数据湖,提取相关的数据子集。这种 "读取模式 "方法意味着,结构是在数据分析数据预处理阶段应用的,而不是在输入时应用。这种灵活性对于迭代式 ML 开发至关重要,因为数据需求会随着模型的发展而变化。AWSGoogle Cloud等主要云计算提供商为构建和管理数据湖提供了强大的服务。

真实世界的人工智能/移动语言应用

数据湖是开发大规模人工智能解决方案的基础,这些解决方案依赖于多样化的海量数据集。

  1. 自动驾驶汽车开发:自动驾驶汽车车队每天会产生数 TB 的原始传感器数据,包括激光雷达点云、高分辨率视频和雷达读数。这些大数据被串流到数据湖中。工程师和研究人员随后可以查询这个海量存储库,以找到罕见或具有挑战性的场景(如夜间行人意外横穿马路),用于模型训练和模拟。这样就能不断改进用于物体检测等任务的感知模型,并确保它们对边缘情况具有鲁棒性。Databricks等平台通常用于管理这些工作流程。
  2. 医学影像分析医院和研究机构以不同格式从各种机器上收集医学影像(MRI、X 射线、CT 扫描)。通过将这些数据集中到数据湖中,他们可以创建一个丰富多样的数据集,用于研究和开发。数据科学家可以访问这些原始成像数据来开发人工智能诊断模型,例如,在脑肿瘤数据集等集合上训练YOLO模型。存储原始数据可以保留预处理格式中可能丢失的关键细节,从而支持更准确的人工智能医疗解决方案。

与相关概念的区别

必须将数据湖与其他数据存储范例区分开来。

  • 数据仓库与数据湖:主要区别在于数据结构和目的。数据仓库存储的是结构化、经过过滤的数据,这些数据已针对特定目的(通常是业务分析)进行了处理。相比之下,数据湖存储所有类型(结构化、半结构化和非结构化)的未经过滤的原始数据,没有预定义的模式。这使得数据湖更适合机器学习的探索性质。
  • 数据库与数据湖:传统数据库,尤其是像 SQL 这样的关系型数据库,要求数据在写入之前必须符合严格的预定义模式。这就是所谓的 "写入模式"。数据湖使用 "读取模式 "方法,提供处理人工智能中常见的各种数据格式(如图像、文本和传感器日志)所需的灵活性。数据库是为快速事务查询而优化的,而数据湖则是为使用Apache Spark 等工具进行大规模分析处理而构建的。
  • 数据挖掘与数据湖:数据湖是一个存储库。另一方面,数据挖掘是从大型数据集中发现模式和见解的过程。数据挖掘技术适用于存储数据湖中的数据。

优势与挑战

好处

  • 灵活性:可存储来自任何来源的任何数据类型,无需事先结构化。
  • 可扩展性:利用Apache Hadoop 等分布式存储系统,轻松处理从 TB 到 PB 的海量数据。
  • 成本效益:利用低成本的商品存储,使保留大量数据变得经济实惠。
  • 数据民主化:让各种团队(数据科学家、分析师、ML 工程师)都能访问原始数据,以满足从报告到深度学习等多种使用情况。
  • 面向未来:无限期地保存原始数据,以便将来使用现在还不存在的新工具和技术进行分析。

挑战:

  • 数据管理:确保数据质量、脉络和访问控制可能非常复杂。
  • 安全性:保护敏感的原始数据需要强有力的数据安全数据隐私措施。
  • 数据沼泽风险:如果没有适当的管理、元数据和编目,数据湖可能会变得杂乱无章,难以有效使用,变成 "数据沼泽"。
  • 复杂性:需要专门的管理和分析技能。有效的MLOps 实践对于管理从数据摄取到模型部署的生命周期至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板