Descubra qué son los data lakes, sus características, beneficios y su papel en la IA/ML. Aprenda cómo transforman la gestión y el análisis de big data.
Un lago de datos es un repositorio de almacenamiento centralizado diseñado para albergar una gran cantidad de datos en su formato nativo y sin procesar. A diferencia de un almacén de datos jerárquico tradicional que almacena los datos en archivos o carpetas, un lago de datos utiliza una arquitectura plana para almacenar los datos, normalmente en almacenamiento de objetos. para almacenar los datos, normalmente en almacenamiento de objetos. Este enfoque permite a las organizaciones almacenar datos estructurados de bases de datos relacionales, datos semiestructurados (como CSV, registros, XML, JSON) y datos no estructurados (como correos electrónicos, documentos y PDF) así como datos binarios (imágenes, audio, vídeo) sin procesarlos previamente. Para los profesionales que trabajan en inteligencia artificial (IA) y aprendizaje automático (ML), esta arquitectura ofrece la flexibilidad necesaria para acceder a conjuntos de datos masivos con fines de experimentación y análisis.
La principal ventaja de un lago de datos para científicos de datos es la capacidad de aplicar "esquema-en-lectura". En las bases de datos tradicionales, la estructura (esquema) debe definirse antes de almacenar los datos (schema-on-write). En un lago de datos, los datos en bruto se almacenan primero, y la estructura se aplica sólo cuando los datos se leen para su procesamiento. se leen para su procesamiento. Esto es fundamental para flujos de trabajo de aprendizaje profundo (deep learning, DL) en los que los los requisitos de preprocesamiento cambian a menudo a medida que evolucionan los modelos.
Los ingenieros suelen aprovechar los servicios de computación en nube como Amazon S3 o Azure Data Lake Storage para crear estos repositorios. Estas plataformas se integran a la perfección con marcos de procesamiento como Apache Spark, lo que permite realizar consultas y análisis de datos en conjuntos de datos a escala de petabytes.
A continuación se muestra un ejemplo sencillo de cómo un script Python podría iniciar el entrenamiento utilizando un archivo de configuración de conjunto de datos que señala a datos extraídos de un entorno de lago:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Los lagos de datos son la columna vertebral de las iniciativas modernas de Big Data en diversos sectores.
Es importante diferenciar un Data Lake de otros conceptos de almacenamiento:
La implementación de un lago de datos ofrece una escalabilidad significativa, lo que permite a las organizaciones ampliar la capacidad de almacenamiento a un coste inferior en comparación con los almacenes tradicionales. almacenamiento a un coste inferior en comparación con los almacenes tradicionales. Promueve la democratización de los datos a varios equipos acceso a la misma fuente de datos brutos para diferentes fines, desde la desde la visualización de datos hasta la investigación avanzada.
Sin embargo, los retos incluyen mantener privacidad y el cumplimiento de la normativa, especialmente cuando se almacena información personal sensible (IIP). Además, sin de preprocesamiento de datos y herramientas de como Databricks Unity Catalog, puede resultar difícil encontrar entre el volumen de datos sin procesar.