了解什么是数据湖,它们的特性、优势以及在 AI/ML 中的作用。 了解它们如何改变大数据管理和分析。
数据湖是一个集中存储库,旨在以原始格式保存大量数据。 与以文件或文件夹存储数据的传统分层数据仓库不同,数据湖采用扁平化 架构来存储数据,通常采用对象存储。这种方法允许企业存储结构化数据 半结构化数据(如 CSV、日志、XML、JSON)以及 非结构化数据(如电子邮件、文档和 PDF) 以及二进制数据(图像、音频、视频),而无需先行处理。对于从事 人工智能(AI)和 机器学习(ML)领域的专业人士来说,这种架构 提供了访问海量数据集进行实验和分析的灵活性。
对于数据科学家来说,数据湖的主要优势在于 数据科学家的主要优势是能够应用 "读取模式"。在传统数据库中,结构(模式)必须在数据存储前定义(写入模式)。 (写模式)。在数据湖中,原始数据首先被存储,只有在读取数据进行处理时才会应用结构。 读取数据进行处理时才应用结构。这对于 这对于深度学习(DL)工作流来说至关重要。 预处理要求经常会随着模型的发展而变化。
工程师经常利用云计算服务 如亚马逊 S3或 Azure 数据湖存储 等云计算服务来构建这些存储库。这些平台与处理框架(如 Apache Spark 等处理框架无缝集成,从而可以对 PB级规模的数据进行高效查询和 数据分析。
下面是一个简单的示例,说明Python 脚本如何使用数据集配置文件启动训练。 的数据集配置文件启动训练:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
数据湖是各行各业现代大数据计划的支柱 各行各业的支柱。
必须将数据湖与其他存储概念区分开来:
实施数据湖可提供显著的可扩展性,使企业能够以低于传统仓库的成本扩展存储容量。 与传统仓库相比,它能以更低的成本扩大存储容量。它促进了数据民主化,让不同的团队 不同的团队访问相同的原始数据源,用于不同的目的,从数据可视化到高级研究。 数据可视化到高级研究。
然而,面临的挑战包括 数据隐私和合规性、 尤其是在存储敏感个人信息(PII)时。此外,如果没有强大的 数据预处理管道和 工具,就很难在大量原始数据中发现有价值的见解。 在大量的原始数据中找到有价值的见解可能会很困难。

