Glosario

Lago de datos

Descubra qué son los lagos de datos, sus características, ventajas y su papel en la IA/ML. Descubra cómo transforman la gestión y el análisis de big data.

Un Data Lake es un repositorio centralizado que le permite almacenar todos sus datos estructurados, semiestructurados y no estructurados a cualquier escala. A diferencia de un almacén de datos tradicional que almacena los datos en un formato predefinido y procesado, un Data Lake conserva una gran cantidad de datos sin procesar en su formato nativo hasta que se necesitan. Para la inteligencia artificial (IA) y el aprendizaje automático (ML), esta arquitectura es increíblemente potente porque proporciona a los científicos de datos un conjunto flexible y masivo de datos originales, perfecto para entrenar modelos complejos, realizar análisis exploratorios y descubrir nuevos patrones sin estar limitados por un esquema inicial.

Cómo funcionan los lagos de datos en la IA y el aprendizaje automático

En un flujo de trabajo de IA típico, un lago de datos sirve como fuente primaria de verdad para todas las fuentes de datos potenciales. El proceso comienza con la ingesta de datos, en la que se cargan en el lago datos sin procesar procedentes de diversas fuentes, como registros de usuario, fuentes de redes sociales, lecturas de sensores IoT, imágenes y vídeos. Estos datos se almacenan en su estado original, sin modificar. Cuando comienza un proyecto, como el entrenamiento de un nuevo modelo de visión por ordenador (CV), los ingenieros pueden acceder al lago para extraer un subconjunto relevante de datos. Este enfoque de "esquema en lectura" significa que la estructura se aplica durante las fases de análisis y preprocesamiento de los datos, no en el momento de la ingesta. Esta flexibilidad es fundamental para el desarrollo iterativo de ML, en el que los requisitos de datos pueden cambiar a medida que evoluciona el modelo. Los principales proveedores de computación en nube, como AWS y Google Cloud, ofrecen servicios sólidos para crear y gestionar lagos de datos.

Aplicaciones AI/ML en el mundo real

Los lagos de datos son fundamentales para desarrollar soluciones de IA a gran escala que dependen de conjuntos de datos diversos y voluminosos.

  1. Desarrollo devehículos autónomos: Una flota de vehículos autónomos genera terabytes de datos de sensores sin procesar a diario, incluidas nubes de puntos LiDAR, vídeo de alta resolución y lecturas de radar. Estos macrodatos se transmiten a un lago de datos. Posteriormente, los ingenieros e investigadores pueden consultar este enorme repositorio para encontrar situaciones poco frecuentes o difíciles -como un peatón que cruza inesperadamente una carretera de noche- y utilizarlas para el entrenamiento y la simulación de modelos. Esto permite la mejora continua de los modelos de percepción para tareas como la detección de objetos y garantiza su robustez frente a casos extremos. Para gestionar estos flujos de trabajo suelen utilizarse plataformas como Databricks.
  2. Análisis de imágenes médicas: Los hospitales y las instituciones de investigación recopilan imágenes médicas (resonancias magnéticas, radiografías, tomografías computarizadas) de varias máquinas en diferentes formatos. Al centralizar estos datos en un lago de datos, crean un conjunto de datos rico y diverso para la investigación y el desarrollo. Los científicos de datos pueden acceder a estos datos de imágenes en bruto para desarrollar modelos de IA de diagnóstico, por ejemplo, entrenando un modelo YOLO en una colección como el conjunto de datos de tumores cerebrales. Al almacenar los datos sin procesar se conservan detalles críticos que podrían perderse en formatos preprocesados, lo que favorece una IA más precisa en las soluciones sanitarias.

Distinción de conceptos afines

Es importante diferenciar los Data Lakes de otros paradigmas de almacenamiento de datos.

  • Almacén de datos frente a lago de datos: La principal diferencia radica en la estructura y el propósito de los datos. Un almacén de datos almacena datos estructurados y filtrados que se han procesado para un fin específico, normalmente el análisis empresarial. En cambio, un Data Lake almacena datos brutos, no filtrados y de todo tipo (estructurados, semiestructurados y no estructurados) sin un esquema predefinido. Esto hace que los lagos de datos sean más adecuados para la naturaleza exploratoria del aprendizaje automático.
  • Base de datos frente a lago de datos: Una base de datos tradicional, especialmente una relacional como SQL, requiere que los datos se ajusten a un esquema estricto y predefinido antes de poder escribirse. Esto se conoce como "esquema-en-escritura". Los lagos de datos utilizan un enfoque de "esquema en lectura", que proporciona la flexibilidad necesaria para manejar los diversos formatos de datos habituales en la IA, como imágenes, texto y registros de sensores. Mientras que las bases de datos están optimizadas para consultas transaccionales rápidas, los lagos de datos se construyen para el procesamiento analítico a gran escala utilizando herramientas como Apache Spark.
  • Data Mining vs. Data Lake: Un Data Lake es un repositorio de almacenamiento. La minería de datos, por otro lado, es el proceso de descubrir patrones y conocimientos a partir de grandes conjuntos de datos. Las técnicas de minería de datos se aplican a los datos almacenados en un Data Lake.

Ventajas y retos

Ventajas:

  • Flexibilidad: Almacena cualquier tipo de datos de cualquier fuente sin estructuración previa.
  • Escalabilidad: Maneja fácilmente volúmenes masivos de datos, desde terabytes hasta petabytes, utilizando sistemas de almacenamiento distribuido como Apache Hadoop.
  • Rentabilidad: Aprovecha el almacenamiento básico de bajo coste, lo que hace asequible conservar grandes cantidades de datos.
  • Democratización de datos: Hace que los datos sin procesar sean accesibles para varios equipos (científicos de datos, analistas, ingenieros de ML) para múltiples casos de uso, desde la generación de informes hasta el aprendizaje profundo.
  • A prueba de futuro: Conserva los datos en bruto indefinidamente, lo que permite realizar análisis futuros con nuevas herramientas y técnicas que hoy no existen.

Desafíos:

  • Gobernanza de datos: Garantizar la calidad de los datos, el linaje y el control de acceso puede ser complejo.
  • Seguridad: La protección de datos sensibles en bruto requiere medidas sólidas de seguridad y privacidad de los datos.
  • Riesgo de pantano de datos: sin una gestión, metadatos y catalogación adecuados, un lago de datos puede desorganizarse y resultar difícil de utilizar con eficacia, convirtiéndose en un "pantano de datos", un concepto que explican las principales empresas de gestión de datos.
  • Complejidad: Requiere habilidades especializadas para la gestión y el análisis. Las prácticas eficaces de MLOps son cruciales para gestionar el ciclo de vida desde la ingesta de datos hasta el despliegue del modelo.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles