Glossario

Lago di dati

Scopri cosa sono i data lake, le loro caratteristiche, i loro vantaggi e il loro ruolo nell'AI/ML. Scopri come trasformano la gestione e l'analisi dei big data.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Un Data Lake è un repository centralizzato progettato per archiviare grandi quantità di dati grezzi nel loro formato nativo, senza imporre una struttura o uno schema predefinito al momento dell'ingestione. A differenza dei database o dei data warehouse tradizionali, che richiedono che i dati siano strutturati prima di essere archiviati, un Data Lake può contenere dati strutturati (come le tabelle di un database relazionale), semi-strutturati (come i file JSON o XML ) e non strutturati (come le immagini, i video, l'audio, i documenti di testo e i log dei sensori) uno accanto all'altro. Questa flessibilità lo rende una risorsa preziosa per la moderna analisi dei dati, in particolare nei campi dell'Intelligenza Artificiale (AI) e dell'Apprendimento Automatico (ML), dove spesso sono richiesti insiemi di dati diversi.

Concetti fondamentali

L'idea fondamentale di un Data Lake è quella di fornire una soluzione di archiviazione economica e altamente scalabile per i Big Data. Le caratteristiche principali includono:

  • Schema-on-Read: A differenza dei data warehouse (schema-on-write), i Data Lake applicano la struttura o lo schema solo quando i dati vengono letti per l'analisi. Questo permette di velocizzare l'ingestione dei dati grezzi.
  • Archiviazione dei dati grezzi: I dati vengono archiviati nel loro formato originale, non elaborato. In questo modo vengono conservati tutti i dettagli, che potrebbero essere utili per analisi future e impreviste o per l'addestramento di modelli ML.
  • Scalabilità: Generalmente costruiti su file system distribuiti o su cloud storage come Amazon S3 o Google Cloud Storage, i Data Lake possono facilmente scalare fino a petabyte o addirittura exabyte di dati.
  • Diversi tipi di dati: Accoglie un'ampia varietà di formati di dati provenienti da fonti diverse, fondamentali per un'analisi completa in settori come la Computer Vision (CV). Per maggiori informazioni, consulta la documentazione AWS sui Data Lake.

Data Lake Vs. Magazzino dati

Sebbene sia i Data Lake che i Data Warehouse siano utilizzati per archiviare grandi quantità di dati, hanno scopi diversi e gestiscono i dati in modo differente.

  • Data Warehouse: Memorizza dati filtrati e strutturati che sono già stati elaborati per uno scopo specifico (schema-on-write). Ottimizzato per i report di business intelligence e le query SQL. Pensa a un magazzino di acqua in bottiglia, purificata e pronta da bere. Esplora i concetti di Data Warehousing di IBM per maggiori dettagli.
  • Data Lake: Memorizza i dati grezzi nel loro formato nativo (schema-on-read). Ideale per l'esplorazione dei dati, il data mining e l'addestramento di modelli di Machine Learning (ML) che richiedono l'accesso a dati originali e non elaborati. Immaginalo come un lago naturale: l'acqua nella sua forma grezza proveniente da varie fonti. La pre-elaborazione dei dati avviene dopo il loro reperimento, in base alla specifica attività analitica.

Rilevanza nell'intelligenza artificiale e nell'apprendimento automatico

I Data Lake sono fondamentali per molti flussi di lavoro di AI e ML, soprattutto nel Deep Learning (DL). La capacità di immagazzinare enormi quantità di dati grezzi e diversi è essenziale per l'addestramento di modelli sofisticati. Gli scienziati dei dati possono accedere a questi dati grezzi per attività come l'analisi esplorativa, la pulizia dei dati, l'ingegneria delle caratteristiche e la creazione di dati di addestramento di alta qualità. Ad esempio, piattaforme come Ultralytics HUB possono sfruttare i dataset (spesso curati e gestiti all'interno di Data Lakes o provenienti da essi) per addestrare modelli personalizzati quali Ultralytics YOLO per attività come il rilevamento di oggetti, la segmentazione di immagini o la classificazione di immagini. Il processo spesso prevede una raccolta e un'annotazione dei dati prima ancora che questi raggiungano il lago.

Applicazioni del mondo reale

I Data Lake consentono di realizzare potenti applicazioni di AI/ML fornendo il volume e la varietà di dati necessari. Ecco due esempi:

  1. Sviluppo di veicoli autonomi: Le aziende che sviluppano veicoli autonomi raccolgono grandi quantità di dati dei sensori (feed delle telecamere, nuvole di punti LiDAR, radar, GPS) dalle flotte di prova. Questi dati grezzi vengono riversati in un Data Lake. Gli ingegneri e i data scientist accedono a questi dati per addestrare e convalidare i modelli di deep learning per attività come il rilevamento di oggetti per identificare pedoni e altri veicoli, il mantenimento della corsia e la navigazione. Scopri come aziende come Waymo utilizzano la tecnologia per la guida autonoma.
  2. Costruire sistemi di raccomandazione personalizzati: Le piattaforme di e-commerce e i servizi di streaming utilizzano i Data Lake per archiviare diversi dati di interazione con gli utenti: click, cronologia di visualizzazione, record di acquisto, attività sui social media e dati demografici degli utenti. Questi dati grezzi vengono elaborati utilizzando strumenti come Apache Spark direttamente sul Data Lake. I modelli di apprendimento automatico vengono poi addestrati su questi dati elaborati per generare sistemi di raccomandazione personalizzati, migliorando il coinvolgimento degli utenti e le vendite, come si vede nelle soluzioni di vendita al dettaglio basate sull'intelligenza artificiale.

Vantaggi e sfide

Vantaggi:

  • Flessibilità: Memorizza qualsiasi tipo di dati senza doverli strutturare prima.
  • Scalabilità: Gestisce facilmente volumi di dati enormi.
  • Economicità: Sfrutta le opzioni di archiviazione a basso costo.
  • Democratizzazione dei dati: Rende i dati grezzi accessibili a vari team (data scientist, analisti).
  • Protezione per il futuro: Conserva i dati grezzi per casi d'uso futuri e sconosciuti.

Sfide:

  • Governance dei dati: Garantire la qualità dei dati, il loro allineamento e il controllo degli accessi può essere complesso.
  • Sicurezza: La protezione dei dati sensibili grezzi richiede solide misure di sicurezza e privacy dei dati.
  • Rischio di palude dei dati: senza un'adeguata gestione e metadati, un Data Lake può diventare disorganizzato e difficile da usare in modo efficace (una "palude dei dati").
  • Complessità: Richiede competenze specialistiche per la gestione e l'analisi. Le pratiche MLOps efficaci sono fondamentali.

I Data Lake forniscono la scala e la flessibilità necessarie per gestire il crescente volume e la varietà di dati richiesti per alimentare le moderne soluzioni di intelligenza artificiale. Sono una componente fondamentale dell'infrastruttura di dati che supporta l'analitica avanzata e l'innovazione dell'apprendimento automatico.

Leggi tutto