探索数据湖如何作为 AI 和 ML 的基础。了解如何利用原始数据训练 Ultralytics YOLO26 并简化计算机视觉工作流程。
数据湖是一个集中式存储库,它以原始格式存储大量原始数据,直到需要时才进行处理。与传统存储系统不同,传统系统要求数据在进入前必须结构化,而数据湖接受“原样”数据,包括结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)以及二进制数据(图像、音频、视频)。这种架构灵活性使数据湖成为现代大数据战略的基石,特别是对于利用人工智能 (AI)和机器学习 (ML)的组织。通过将数据捕获与数据使用解耦,组织可以相对便宜地存储大量信息,并在以后确定具体的分析问题。
在人工智能开发中,数据湖的主要价值在于其支持深度学习 (DL)工作流的能力。先进的神经网络需要多样化且海量的训练数据才能实现高精度。数据湖作为原始资产的暂存区,例如数百万张用于计算机视觉 (CV)的高分辨率图像或数千小时用于语音识别的音频,在处理前都存放于此。
数据科学家在数据湖中使用“读时模式”方法。这意味着数据结构仅在读取数据进行处理时应用,而不是在写入存储时应用。这带来了极大的灵活性;相同的原始数据集可以以多种方式处理,以完成不同的预测建模任务,而无需更改原始数据源。此外,强大的数据湖通常与云计算服务集成,例如Amazon S3或Azure Blob Storage,从而实现训练YOLO26等大型模型所需的可扩展并行处理。
尽管经常混淆,但数据湖与数据仓库有所不同。数据仓库将数据存储在结构化表中,并针对快速SQL查询和商业智能报告进行了优化。它采用“写时模式”,这意味着数据在进入系统之前必须通过ETL(提取、转换、加载)过程进行清洗和转换。
相反,数据湖针对存储容量和多样性进行了优化。它支持无监督学习和探索性分析,其目标可能尚未明确。例如,数据仓库可能会告诉你上个月销售了多少产品,而数据湖则保存原始的客户情绪日志和图像数据,这些数据有助于人工智能模型理解它们为何销售。
数据湖在推动自动化边界的各个行业中都发挥着关键作用:
在使用Ultralytics 平台时,用户通常从其组织的数据湖中提取原始数据的子集,以创建用于训练的标注数据集。一旦原始图像被检索和标注,它们就可以用于训练最先进的模型。
以下示例演示了开发人员如何加载本地数据集(模拟从数据湖中获取),以训练YOLO26模型进行检测任务。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

开启您的机器学习未来之旅