Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Data Lake

Scopri cosa sono i data lake, le loro caratteristiche, i vantaggi e il ruolo nell'AI/ML. Scopri come trasformano la gestione e l'analisi dei big data.

Un Data Lake è un repository di archiviazione centralizzato progettato per contenere una grande quantità di dati nel loro formato nativo e grezzo. A differenza di un data warehouse gerarchico tradizionale, che archivia i dati in file o cartelle, un data lake utilizza un'architettura piatta per archiviare i dati, di solito in uno storage a oggetti. architettura piatta per archiviare i dati, di solito in uno storage a oggetti. Questo approccio consente alle organizzazioni di archiviare dati strutturati da database relazionali, dati semi-strutturati (come CSV, log, XML, JSON) e dati non strutturati (come le e-mail). dati non strutturati (come e-mail, documenti e PDF) nonché dati binari (immagini, audio, video) senza doverli prima elaborare. Per i professionisti che lavorano in intelligenza artificiale (AI) e apprendimento automatico (ML), questa architettura fornisce la flessibilità necessaria per accedere a enormi insiemi di dati per la sperimentazione e l'analisi.

Il ruolo dei laghi di dati nei flussi di lavoro dell'intelligenza artificiale

Il vantaggio principale di un data lake per i scienziati dei dati è la possibilità di applicare "schema-on-read". Nei database tradizionali, la struttura (schema) deve essere definita prima di memorizzare i dati (schema-on-write). (schema-on-write). In un data lake, i dati grezzi vengono archiviati per primi e la struttura viene applicata solo quando i dati vengono letti per l'elaborazione. per l'elaborazione. Questo è fondamentale per flussi di lavoro di deep learning (DL), dove i requisiti di preelaborazione requisiti di pre-elaborazione cambiano spesso con l'evoluzione dei modelli.

Gli ingegneri spesso utilizzano servizi di cloud computing come Amazon S3 o Azure Data Lake Storage per creare questi archivi. Queste piattaforme si integrano perfettamente con framework di elaborazione come Apache Spark, che consentono di eseguire interrogazioni e analisi dei dati su analisi dei dati su set di dati su scala petabyte.

Ecco un semplice esempio di come uno script Python potrebbe avviare l'addestramento utilizzando un file di configurazione del dataset che punta ai dati estratti dall'ambiente Lake. ai dati estratti da un ambiente lacustre:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Applicazioni nel mondo reale

I laghi di dati sono la spina dorsale delle moderne iniziative di Big Data in diversi settori.

  1. Veicoli autonomi: Lo sviluppo di auto a guida autonoma richiede l'elaborazione di milioni di chilometri di dati di guida. I veicoli generano registri di sensori sensori, nuvole di punti LiDAR e filmati ad alta risoluzione. Tutti questi dati eterogenei vengono riversati in un lago di dati. I ricercatori interrogano quindi scenari specifici, come "tempo innevato" o "pedoni di notte", per creare diversi set di addestramento per i veicoli. creare diversi set di addestramento per modelli di rilevamento degli oggetti. Questo supporta miglioramento continuo dell'IA L'intelligenza artificiale nei sistemi di sicurezza automobilistica.
  2. Analisi delle immagini mediche: Le istituzioni sanitarie generano enormi quantità di dati di imaging (radiografie, risonanze magnetiche, TAC) in formati come DICOM. A data lake consente agli ospedali di centralizzare queste informazioni insieme alle cartelle cliniche elettroniche dei pazienti (EHR). I ricercatori possono quindi accedere a questi dati multimodali per addestrare i modelli diagnostici, ad esempio usando YOLO11 per identificare le anomalie nelle scansioni, facendo avanzare significativamente avanzare l'IA nell'assistenza sanitaria.

Distinguere i concetti correlati

È importante differenziare un Data Lake da altri concetti di storage:

  • Data Lake vs. Data Warehouse: A Il Data Warehouse memorizza dati altamente strutturati dati altamente strutturati ed elaborati, ottimizzati per il reporting e la business intelligence. Un Data Lake archivia dati grezzi per l'analisi analisi esplorativa e la modellazione predittiva.
  • Data Lake vs. Data Swamp: Una "palude di dati" è un lago di dati deteriorato e mal gestito, privo di metadati o governance adeguati, che rende i dati irrecuperabili o inutilizzabili. gestiti, privi di metadati o di governance adeguati, che rendono i dati irrecuperabili o inutilizzabili. Per una sicurezza e una catalogazione dei dati efficaci sicurezza e catalogazione dei dati sono necessarie per per evitare che ciò accada.
  • Data Lake vs. Database: I database relazionali tradizionali (RDBMS), come ad es. PostgreSQL sono progettati per l'elaborazione transazionale con schemi rigidi, mentre i data lake sono progettati per l'elaborazione analitica di diversi tipi di dati.

Vantaggi e sfide

L'implementazione di un data lake offre una scalabilità significativa, consentendo alle organizzazioni di espandere la capacità di archiviazione a costi inferiori rispetto ai magazzini tradizionali. capacità di archiviazione a un costo inferiore rispetto ai magazzini tradizionali. Promuove la democratizzazione dei dati, consentendo a di accesso alla stessa fonte di dati grezzi per scopi diversi, dalla visualizzazione dei dati alla ricerca avanzata.

Tuttavia, le sfide includono il mantenimento di privacy dei dati e la conformità, soprattutto quando si archiviano informazioni personali sensibili (PII). Inoltre, senza una solida pipeline di preelaborazione dei dati e strumenti di strumenti di governance come Databricks Unity Catalog, è difficile trovare in mezzo al volume di dati grezzi può essere difficile.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora