Узнайте, что такое озера данных, их особенности, преимущества и роль в AI/ML. Узнайте, как они преобразуют управление большими данными и аналитику.
Озеро данных — это централизованное хранилище, в котором до момента использования хранится огромный объем необработанных данных в их исходном формате . В отличие от традиционных систем хранения, которые требуют структурирования данных перед вводом, озеро данных принимает данные «как есть», включая структурированные данные (строки и столбцы), полуструктурированные данные (CSV, журналы, XML, JSON) и неструктурированные данные (электронные письма, документы, PDF-файлы) и двоичные данные (изображения, аудио, видео). Эта архитектурная гибкость делает озера данных краеугольным камнем современных стратегий Big Data, особенно для организаций, использующих искусственный интеллект (AI) и машинное обучение (ML). Отделив сбор данных от их использования, организации могут относительно недорого хранить огромные массивы информации и решать конкретные аналитические задачи позже.
В контексте развития искусственного интеллекта основная ценность озера данных заключается в его способности поддерживать рабочие процессы глубокого обучения (DL). Для достижения высокой точности современные нейронные сети требуют разнообразных и объемных учебных данных. Озеро данных выступает в качестве промежуточного хранилища, где до обработки хранятся необработанные ресурсы, такие как миллионы изображений высокого разрешения для компьютерного зрения (CV) или тысячи часов аудиозаписей для распознавания речи.
Данные ученые используют методологии «schema-on-read» в рамках озер данных. Это означает, что структура применяется к данным только при их чтении для обработки, а не при записи в хранилище. Это обеспечивает огромную гибкость: один и тот же набор необработанных данных может быть обработан несколькими способами для различных задач прогнозного моделирования без изменения исходного источника. Кроме того, надежные озера данных часто интегрируются с облачными вычислительными сервисами, такими как Amazon S3 или Azure Blob Storage, что обеспечивает масштабируемую параллельную обработку, необходимую для обучения тяжелых моделей, таких как YOLO26.
Хотя их часто путают, озеро данных отличается от хранилища данных. Хранилище данных хранит данные в структурированных таблицах и оптимизировано для быстрых SQL-запросов и отчетности бизнес-аналитики. Оно использует «схему при записи», что означает, что данные должны быть очищены и преобразованы с помощью процесса ETL (извлечение, преобразование, загрузка) перед вводом в систему.
Напротив, озеро данных оптимизировано для объема и разнообразия хранения. Оно поддерживает неконтролируемое обучение и исследовательский анализ, когда цель может быть еще не определена. Например, хранилище данных может показать, сколько продуктов было продано в прошлом месяце, а озеро данных содержит необработанные журналы мнений клиентов и изображения, которые помогают модели искусственного интеллекта понять, почему они были проданы.
Озера данных играют важную роль в различных отраслях, расширяя границы автоматизации:
При работе с Ultralytics пользователи часто извлекают поднаборы исходных данных из хранилища данных своей организации для создания аннотированных наборов данных для обучения. После извлечения и маркировки исходных изображений их можно использовать для обучения современных моделей.
Следующий пример демонстрирует, как разработчик может загрузить локальный набор данных (имитируя извлечение из озера данных) для обучения модели YOLO26 для задачи обнаружения.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")