Glosario

Data Lake

Descubra qué son los data lakes, sus características, beneficios y su papel en la IA/ML. Aprenda cómo transforman la gestión y el análisis de big data.

Un lago de datos es un repositorio de almacenamiento centralizado diseñado para albergar una gran cantidad de datos en su formato nativo y sin procesar. A diferencia de un almacén de datos jerárquico tradicional que almacena los datos en archivos o carpetas, un lago de datos utiliza una arquitectura plana para almacenar los datos, normalmente en almacenamiento de objetos. para almacenar los datos, normalmente en almacenamiento de objetos. Este enfoque permite a las organizaciones almacenar datos estructurados de bases de datos relacionales, datos semiestructurados (como CSV, registros, XML, JSON) y datos no estructurados (como correos electrónicos, documentos y PDF) así como datos binarios (imágenes, audio, vídeo) sin procesarlos previamente. Para los profesionales que trabajan en inteligencia artificial (IA) y aprendizaje automático (ML), esta arquitectura ofrece la flexibilidad necesaria para acceder a conjuntos de datos masivos con fines de experimentación y análisis.

El papel de los lagos de datos en los flujos de trabajo de IA

La principal ventaja de un lago de datos para científicos de datos es la capacidad de aplicar "esquema-en-lectura". En las bases de datos tradicionales, la estructura (esquema) debe definirse antes de almacenar los datos (schema-on-write). En un lago de datos, los datos en bruto se almacenan primero, y la estructura se aplica sólo cuando los datos se leen para su procesamiento. se leen para su procesamiento. Esto es fundamental para flujos de trabajo de aprendizaje profundo (deep learning, DL) en los que los los requisitos de preprocesamiento cambian a menudo a medida que evolucionan los modelos.

Los ingenieros suelen aprovechar los servicios de computación en nube como Amazon S3 o Azure Data Lake Storage para crear estos repositorios. Estas plataformas se integran a la perfección con marcos de procesamiento como Apache Spark, lo que permite realizar consultas y análisis de datos en conjuntos de datos a escala de petabytes.

A continuación se muestra un ejemplo sencillo de cómo un script Python podría iniciar el entrenamiento utilizando un archivo de configuración de conjunto de datos que señala a datos extraídos de un entorno de lago:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Aplicaciones en el mundo real

Los lagos de datos son la columna vertebral de las iniciativas modernas de Big Data en diversos sectores.

Vehículos autónomos: El desarrollo de vehículos autónomos requiere procesar millones de kilómetros de datos de conducción. Los vehículos generan registros de sensores, nubes de puntos LiDAR y vídeos de alta resolución. Todos estos datos heterogéneos se vuelcan en un lago de datos. A continuación, los investigadores consultan escenarios específicos -como "tiempo nevado" o "peatones de noche"- para para crear diversos conjuntos de modelos de detección de objetos. Esto permite mejora continua de la la IA en los sistemas de seguridad del automóvil.
Análisis de imágenes médicas: Las instituciones sanitarias generan cantidades ingentes de datos de imagen (radiografías, resonancias magnéticas, tomografías computarizadas) en formatos como DICOM. A lago de datos permite a los hospitales centralizar esta información junto con las historias clínicas electrónicas (HCE) de los pacientes. Los investigadores pueden entonces acceder a estos datos multimodales para entrenar modelos de diagnóstico, por ejemplo utilizando YOLO11 para identificar anomalías en las exploraciones en la asistencia sanitaria.

Distinguir conceptos relacionados

Es importante diferenciar un Data Lake de otros conceptos de almacenamiento:

Lago de datos frente a almacén de datos: A Data Warehouse almacena datos altamente estructurados, altamente estructurados y procesados, optimizados para la elaboración de informes y la inteligencia empresarial. Un Data Lake almacena datos sin procesar para análisis exploratorio y modelado predictivo.
Lago de datos frente a pantano de datos: Un "pantano de datos" es un lago de datos deteriorado que está mal mal gestionado, que carece de los metadatos o la gobernanza adecuados, lo que hace que los datos sean irrecuperables o inutilizables. Para que para evitarlo. para evitarlo.
Lago de datos frente a base de datos: Las bases de datos relacionales tradicionales (RDBMS) como PostgreSQL están diseñadas para el procesamiento transaccional con esquemas rígidos, mientras que los lagos de datos están diseñados para el procesamiento analítico de diversos tipos de datos.

Beneficios y desafíos

La implementación de un lago de datos ofrece una escalabilidad significativa, lo que permite a las organizaciones ampliar la capacidad de almacenamiento a un coste inferior en comparación con los almacenes tradicionales. almacenamiento a un coste inferior en comparación con los almacenes tradicionales. Promueve la democratización de los datos a varios equipos acceso a la misma fuente de datos brutos para diferentes fines, desde la desde la visualización de datos hasta la investigación avanzada.

Sin embargo, los retos incluyen mantener privacidad y el cumplimiento de la normativa, especialmente cuando se almacena información personal sensible (IIP). Además, sin de preprocesamiento de datos y herramientas de como Databricks Unity Catalog, puede resultar difícil encontrar entre el volumen de datos sin procesar.

Data Lake

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

El papel de los lagos de datos en los flujos de trabajo de IA

Aplicaciones en el mundo real

Distinguir conceptos relacionados

Beneficios y desafíos

Leer más en esta categoría

Comprender por qué la anotación con intervención humana es clave

¿Qué es la destilación de conjuntos de datos? Una breve descripción general

Las gafas Oakley Meta AI están redefiniendo el concepto de gafas con Vision AI.

Únase a la comunidad Ultralytics