深圳Yolo 视觉
深圳
立即加入
词汇表

数据湖

了解什么是数据湖,它们的特性、优势以及在 AI/ML 中的作用。 了解它们如何改变大数据管理和分析。

数据湖是一个集中存储库,旨在以原始格式保存大量数据。 与以文件或文件夹存储数据的传统分层数据仓库不同,数据湖采用扁平化 架构来存储数据,通常采用对象存储。这种方法允许企业存储结构化数据 半结构化数据(如 CSV、日志、XML、JSON)以及 非结构化数据(如电子邮件、文档和 PDF) 以及二进制数据(图像、音频、视频),而无需先行处理。对于从事 人工智能(AI)机器学习(ML)领域的专业人士来说,这种架构 提供了访问海量数据集进行实验和分析的灵活性。

数据湖在人工智能工作流程中的作用

对于数据科学家来说,数据湖的主要优势在于 数据科学家的主要优势是能够应用 "读取模式"。在传统数据库中,结构(模式)必须在数据存储前定义(写入模式)。 (写模式)。在数据湖中,原始数据首先被存储,只有在读取数据进行处理时才会应用结构。 读取数据进行处理时才应用结构。这对于 这对于深度学习(DL)工作流来说至关重要。 预处理要求经常会随着模型的发展而变化。

工程师经常利用云计算服务 如亚马逊 S3Azure 数据湖存储 等云计算服务来构建这些存储库。这些平台与处理框架(如 Apache Spark 等处理框架无缝集成,从而可以对 PB规模的数据进行高效查询和 数据分析

下面是一个简单的示例,说明Python 脚本如何使用数据集配置文件启动训练。 的数据集配置文件启动训练:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

实际应用

数据湖是各行各业现代大数据计划的支柱 各行各业的支柱。

  1. 自动驾驶汽车 自动驾驶汽车的开发需要处理数百万英里的驾驶数据。车辆会生成原始传感器 日志、激光雷达点云和高分辨率视频片段。所有这些异构数据都被转入数据湖。 然后,研究人员会查询特定场景,如 "下雪天 "或 "夜间行人",从而为自动驾驶汽车创建不同的训练集。 为物体检测模型创建不同的训练集。 对象检测模型创建不同的训练集。这有助于 不断改进 人工智能在汽车安全系统中的应用
  2. 医学图像分析 医疗机构以 DICOM 等格式生成大量的成像数据(X 光、核磁共振成像、CT 扫描)。A 数据湖允许医院将这些信息与患者电子健康记录(EHR)集中在一起。 然后,研究人员可以访问这些多模态数据来训练诊断模型,例如使用 YOLO11来识别扫描中的异常情况,从而极大地 推动人工智能在医疗保健领域的应用

区分相关概念

必须将数据湖与其他存储概念区分开来:

  • 数据湖与数据仓库:A 数据仓库存储高度结构化 处理过的数据,这些数据经过优化,可用于报告和商业智能。数据湖存储原始数据,用于探索性 分析和预测建模
  • 数据湖与数据沼泽:数据沼泽 "是指数据湖恶化,管理不善,缺乏适当的元数据或治理,导致数据无法检索或使用。 管理不善,缺乏适当的元数据或治理,导致数据无法检索或使用。有效的 数据安全和编目 防止出现这种情况。
  • 数据湖与数据库:传统的关系型数据库(RDBMS),如 PostgreSQL等传统的关系型数据库(RDBMS)是专为具有严格模式的事务处理而设计的、 而数据湖则是为分析处理各种类型的数据而设计的。

优势与挑战

实施数据湖可提供显著的可扩展性,使企业能够以低于传统仓库的成本扩展存储容量。 与传统仓库相比,它能以更低的成本扩大存储容量。它促进了数据民主化,让不同团队 不同的团队访问相同的原始数据源,用于不同的目的,从数据可视化到高级研究。 数据可视化到高级研究。

然而,面临的挑战包括 数据隐私和合规性、 尤其是在存储敏感个人信息(PII)时。此外,如果没有强大的 数据预处理管道和 工具,就很难在大量原始数据中发现有价值的见解。 在大量的原始数据中找到有价值的见解可能会很困难。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入