Data Lake
Исследуй, как озера данных (data lakes) служат основой для ИИ и ML. Научись использовать сырые данные для обучения Ultralytics YOLO26 и упрощения рабочих процессов компьютерного зрения.
Data lake — это централизованное хранилище, в котором содержится огромное количество необработанных данных в их исходном формате до момента, когда они понадобятся. В отличие от традиционных систем хранения, требующих структурирования данных перед записью, data lake принимает данные «как есть», включая структурированные данные (строки и столбцы), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (электронные письма, документы, PDF) и бинарные данные (изображения, аудио, видео). Эта архитектурная гибкость делает data lakes краеугольным камнем современных стратегий Big Data, особенно для организаций, использующих Artificial Intelligence (AI) и Machine Learning (ML). Разделяя сбор данных и их использование, организации могут относительно недорого хранить огромные массивы информации и определять конкретные аналитические задачи позже.
Link to this sectionРоль data lakes в AI и Machine Learning#
В контексте разработки AI основная ценность data lake заключается в его способности поддерживать рабочие процессы Deep Learning (DL). Современным нейронным сетям требуются разнообразные и объемные training data для достижения высокой точности. Data lake выступает в качестве площадки, где необработанные ресурсы, такие как миллионы изображений высокого разрешения для Computer Vision (CV) или тысячи часов аудио для Speech Recognition, хранятся перед обработкой.
Специалисты по анализу данных (data scientists) используют в data lakes методологии «схемы при чтении» (schema-on-read). Это означает, что структура применяется к данным только в момент их чтения для обработки, а не при записи в хранилище. Это обеспечивает огромную гибкость: один и тот же исходный набор данных можно обрабатывать разными способами для различных задач predictive modeling, не изменяя первоисточник. Кроме того, надежные data lakes часто интегрируются с облачными сервисами cloud computing, такими как Amazon S3 или Azure Blob Storage, обеспечивая масштабируемую параллельную обработку, необходимую для обучения тяжелых моделей, таких как YOLO26.
Link to this sectionData Lake против Data Warehouse#
Хотя их часто путают, data lake отличается от хранилища данных (data warehouse). Data warehouse хранит данные в структурированных таблицах и оптимизирован для быстрых SQL-запросов и бизнес-аналитики. Он использует «схему при записи» (schema-on-write), что означает, что данные должны быть очищены и преобразованы с помощью процесса ETL (Extract, Transform, Load) перед внесением в систему.
Напротив, data lake оптимизирован для объема и разнообразия хранения. Он поддерживает unsupervised learning и разведочный анализ, где цель может быть еще не определена. Например, data warehouse может подсказать тебе, сколько товаров было продано в прошлом месяце, в то время как data lake хранит необработанные логи customer sentiment и данные изображений, которые помогают модели AI понять, почему они были проданы.
Link to this sectionРеальные приложения#
Data lakes играют важную роль в различных отраслях, расширяющих границы автоматизации:
- Автономные транспортные средства: разработка технологий беспилотного вождения требует обработки петабайтов данных с датчиков. Autonomous vehicles генерируют непрерывные потоки облаков точек LiDAR, радиолокационных сигналов и видео высокой четкости. Data lake хранит эту необработанную телеметрию, позволяя инженерам воспроизводить реальные сценарии для обучения моделей Object Detection с целью идентификации пешеходов и препятствий при различных погодных условиях.
- Медицинская диагностика: в современном medical image analysis больницы консолидируют историю болезни пациентов, геномные данные и файлы изображений (МРТ, КТ) в защищенном data lake. Исследователи могут затем получить доступ к этим анонимизированным неструктурированным данным для обучения моделей tumor detection или прогнозирования заболеваний, часто используя методы segmentation для выделения областей интереса в медицинских изображениях.
Link to this sectionИспользование Data Lakes вместе с Ultralytics#
Работая с Ultralytics Platform, пользователи часто извлекают подмножества необработанных данных из data lake своей организации для создания аннотированных наборов данных для обучения. После того как исходные изображения получены и размечены, их можно использовать для обучения передовых моделей.
Следующий пример демонстрирует, как разработчик может загрузить локальный набор данных (имитируя выборку из data lake) для обучения модели YOLO26 для задачи детекции.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





