Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Data Lake

Descubra qué son los data lakes, sus características, beneficios y su papel en la IA/ML. Aprenda cómo transforman la gestión y el análisis de big data.

Un lago de datos es un repositorio de almacenamiento centralizado que contiene una gran cantidad de datos sin procesar en su formato nativo hasta que se necesitan. A diferencia de los sistemas de almacenamiento tradicionales, que requieren que los datos estén estructurados antes de su entrada, un lago de datos acepta los datos «tal cual», incluidos los datos estructurados (filas y columnas), los datos semiestructurados (CSV, registros, XML, JSON) y los datos no estructurados (correos electrónicos, documentos, PDF) y los datos binarios (imágenes, audio, vídeo). Esta flexibilidad arquitectónica convierte a los lagos de datos en una piedra angular de las estrategias modernas de estrategias de Big Data, especialmente para las organizaciones que aprovechan la inteligencia artificial (IA) y el aprendizaje automático (ML). Al desvincular la captura de datos del uso de los mismos, las organizaciones pueden almacenar grandes cantidades de información de forma relativamente económica y resolver las cuestiones específicas de análisis más adelante.

El papel de los lagos de datos en la inteligencia artificial y el aprendizaje automático

En el contexto del desarrollo de la IA, el valor principal de un lago de datos reside en su capacidad para respaldar los flujos de trabajo de aprendizaje profundo (DL). Las redes neuronales avanzadas requieren datos de entrenamiento diversos y voluminosos para lograr una alta precisión. Un lago de datos actúa como el escenario donde residen los activos sin procesar, como millones de imágenes de alta resolución para la visión por ordenador (CV) o miles de horas de audio para el reconocimiento de voz, antes de ser procesados.

Los científicos de datos utilizan metodologías de «esquema en lectura» dentro de los lagos de datos. Esto significa que la estructura se aplica a los datos solo cuando se leen para su procesamiento, en lugar de cuando se escriben en el almacenamiento. Esto permite una gran agilidad; el mismo conjunto de datos sin procesar se puede procesar de múltiples maneras para diferentes tareas de modelado predictivo sin alterar la fuente original. Además, los lagos de datos robustos a menudo se integran con servicios de computación en la nube como Amazon S3 o Azure Blob Storage, lo que permite el procesamiento escalable y paralelo necesario para entrenar modelos pesados como YOLO26.

Lago de datos frente a almacén de datos

Aunque a menudo se confunden, un lago de datos es distinto de un almacén de datos. Un almacén de datos almacena datos en tablas estructuradas y está optimizado para consultas SQL rápidas e informes de inteligencia empresarial. Utiliza «esquema en escritura», lo que significa que los datos deben limpiarse y transformarse mediante un proceso ETL (extraer, transformar, cargar) antes de introducirlos en el sistema.

Por el contrario, un lago de datos está optimizado para el volumen y la variedad de almacenamiento. Admite el aprendizaje no supervisado y el análisis exploratorio en los que el objetivo puede no estar aún definido. Por ejemplo, un almacén de datos puede indicarle cuántos productos se vendieron el mes pasado, mientras que un lago de datos contiene los registros sin procesar de la opinión de los clientes y los datos de imágenes que ayudan a un modelo de IA a comprender por qué se vendieron.

Aplicaciones en el mundo real

Los lagos de datos son fundamentales en diversos sectores que amplían los límites de la automatización:

  • Vehículos autónomos: el desarrollo de la tecnología de conducción autónoma requiere el procesamiento de petabytes de datos de sensores. Los vehículos autónomos generan flujos continuos de nubes de puntos LiDAR, señales de radar y vídeos de alta definición. Un lago de datos almacena esta telemetría sin procesar, lo que permite a los ingenieros reproducir escenarios del mundo real para entrenar modelos de detección de objetos con el fin de identificar peatones y obstáculos en condiciones meteorológicas variables.
  • Diagnóstico sanitario: En el análisis moderno de imágenes médicas, los hospitales consolidan el historial de los pacientes, los datos genómicos y los archivos de imágenes (resonancias magnéticas, tomografías computarizadas) en un lago de datos seguro. Los investigadores pueden entonces acceder a estos datos anónimos y no estructurados para entrenar modelos para la detección de tumores o la predicción de enfermedades, a menudo utilizando técnicas de segmentación para aislar las regiones de interés dentro de las imágenes médicas.

Utilización de lagos de datos con Ultralytics

Al trabajar con la Ultralytics , los usuarios suelen extraer subconjuntos de datos sin procesar del lago de datos de su organización para crear conjuntos de datos anotados para el entrenamiento. Una vez que las imágenes sin procesar se recuperan y etiquetan, se pueden utilizar para entrenar modelos de última generación.

El siguiente ejemplo muestra cómo un desarrollador podría cargar un conjunto de datos local (imitando una recuperación de un lago de datos) para entrenar el modelo YOLO26 para una tarea de detección.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora