深圳Yolo 视觉
深圳
立即加入
词汇表

数据湖

探索数据湖如何作为 AI 和 ML 的基础。了解如何利用原始数据训练 Ultralytics YOLO26 并简化计算机视觉工作流程。

数据湖是一个集中式存储库,它以原始格式存储大量原始数据,直到需要时才进行处理。与传统存储系统不同,传统系统要求数据在进入前必须结构化,而数据湖接受“原样”数据,包括结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)以及二进制数据(图像、音频、视频)。这种架构灵活性使数据湖成为现代大数据战略的基石,特别是对于利用人工智能 (AI)机器学习 (ML)的组织。通过将数据捕获与数据使用解耦,组织可以相对便宜地存储大量信息,并在以后确定具体的分析问题。

数据湖在人工智能和机器学习中的作用

在人工智能开发中,数据湖的主要价值在于其支持深度学习 (DL)工作流的能力。先进的神经网络需要多样化且海量的训练数据才能实现高精度。数据湖作为原始资产的暂存区,例如数百万张用于计算机视觉 (CV)的高分辨率图像或数千小时用于语音识别的音频,在处理前都存放于此。

数据科学家在数据湖中使用“读时模式”方法。这意味着数据结构仅在读取数据进行处理时应用,而不是在写入存储时应用。这带来了极大的灵活性;相同的原始数据集可以以多种方式处理,以完成不同的预测建模任务,而无需更改原始数据源。此外,强大的数据湖通常与云计算服务集成,例如Amazon S3Azure Blob Storage,从而实现训练YOLO26等大型模型所需的可扩展并行处理。

数据湖 vs. 数据仓库

尽管经常混淆,但数据湖与数据仓库有所不同。数据仓库将数据存储在结构化表中,并针对快速SQL查询和商业智能报告进行了优化。它采用“写时模式”,这意味着数据在进入系统之前必须通过ETL(提取、转换、加载)过程进行清洗和转换。

相反,数据湖针对存储容量和多样性进行了优化。它支持无监督学习和探索性分析,其目标可能尚未明确。例如,数据仓库可能会告诉你上个月销售了多少产品,而数据湖则保存原始的客户情绪日志和图像数据,这些数据有助于人工智能模型理解它们为何销售。

实际应用

数据湖在推动自动化边界的各个行业中都发挥着关键作用:

  • 自动驾驶车辆:开发自动驾驶技术需要处理PB级的传感器数据。自动驾驶车辆 生成连续的 LiDAR 点云、雷达信号和高清视频流。数据湖存储这些原始遥测数据,使工程师能够重放真实世界场景,以训练 Object Detection 模型,识别不同天气条件下的行人和障碍物。
  • 医疗诊断:在现代医学图像分析中,医院将患者病史、基因组数据和影像文件(MRI、CT扫描)整合到安全的数据湖中。研究人员随后可以访问这些匿名化、非结构化数据,以训练模型用于肿瘤 detect或疾病预测,通常利用segmentation技术来隔离医学图像中的感兴趣区域。

将数据湖与 Ultralytics 结合使用

在使用Ultralytics 平台时,用户通常从其组织的数据湖中提取原始数据的子集,以创建用于训练的标注数据集。一旦原始图像被检索和标注,它们就可以用于训练最先进的模型。

以下示例演示了开发人员如何加载本地数据集(模拟从数据湖中获取),以训练YOLO26模型进行检测任务。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

让我们一起共建AI的未来!

开启您的机器学习未来之旅