Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Lac de données

Découvrez ce que sont les lacs de données, leurs caractéristiques, leurs avantages et leur rôle dans l'IA/ML. Apprenez comment ils transforment la gestion et l'analyse des mégadonnées.

Un lac de données est un référentiel de stockage centralisé conçu pour contenir une grande quantité de données dans leur format natif et brut. Contrairement à un entrepôt de données hiérarchique traditionnel qui stocke les données dans des fichiers ou des dossiers, un lac de données utilise une architecture plate pour stocker les données, généralement dans un stockage d'objets. pour stocker les données, généralement dans un stockage d'objets. Cette approche permet aux organisations de stocker des données structurées structurées provenant de bases de données relationnelles, des données semi-structurées (comme CSV, logs, XML, JSON), et des données non structurées (comme les courriels, les documents et les PDF) ainsi que des données binaires (images, audio, vidéo) sans traitement préalable. Pour les professionnels travaillant dans les domaines de l'intelligence artificielle (IA) et l 'apprentissage automatique (ML), cette architecture offre la flexibilité nécessaire pour accéder à des ensembles de données massifs à des fins d'expérimentation et d'analyse.

Le rôle des lacs de données dans les flux de travail de l'IA

Le principal avantage d'un lac de données pour les data scientists est la possibilité d'appliquer "schéma à la lecture". Dans les bases de données traditionnelles, la structure (schéma) doit être définie avant que les données ne soient stockées (schéma en écriture). (schéma sur l'écriture). Dans un lac de données, les données brutes sont d'abord stockées, et la structure n'est appliquée que lorsque les données sont lues pour traitement. lues pour être traitées. C'est essentiel pour flux de travail d'apprentissage profond (DL) où les où les exigences de prétraitement changent souvent au fur et à mesure que les modèles évoluent.

Les ingénieurs ont souvent recours à des services informatiques en nuage comme Amazon S3 ou Azure Data Lake Storage pour créer ces référentiels. Ces plateformes s'intègrent de manière transparente à des cadres de traitement tels que Apache Spark, ce qui permet d'effectuer des requêtes et des sur des ensembles de données à l'échelle du pétaoctet.

Voici un exemple simple de la façon dont un script Python peut lancer une formation en utilisant un fichier de configuration de jeu de données qui pointe vers des données extraites de l'environnement du lac. vers des données extraites d'un environnement lacustre :

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Applications concrètes

Les lacs de données sont l'épine dorsale des initiatives modernes de Big Data dans divers secteurs d'activité.

  1. Véhicules autonomes: Le développement des voitures autonomes nécessite le traitement de millions de kilomètres de données de conduite. Les véhicules génèrent des journaux de capteurs bruts, des nuages de points LiDAR et des séquences vidéo haute résolution. de capteurs bruts, des nuages de points LiDAR et des séquences vidéo haute résolution. Toutes ces données hétérogènes sont déversées dans un lac de données. Les chercheurs interrogent ensuite des scénarios spécifiques, tels que "temps neigeux" ou "piétons la nuit", afin de créer divers ensembles d'entraînement pour la simulation de conduite. créer divers ensembles d'entraînement pour les modèles de détection d'objets. modèles de détection d'objets. Cela permet l'amélioration continue de l'IA dans les systèmes de sécurité automobile. l 'IA dans les systèmes de sécurité automobile.
  2. Analyse d'images médicales: Les établissements de soins de santé génèrent des quantités massives de données d'imagerie (radiographies, IRM, tomodensitogrammes) dans des formats tels que DICOM. A data lake permet aux hôpitaux de centraliser ces informations avec les dossiers médicaux électroniques (EHR) des patients. Les chercheurs peuvent ensuite accéder à ces données multimodales pour former des modèles de diagnostic, par exemple en utilisant des YOLO11 pour identifier les anomalies dans les scanners, ce qui l'IA dans le domaine de la santé.

Distinguer les concepts apparentés

Il est important de différencier le lac de données des autres concepts de stockage :

  • Lac de données vs. entrepôt de données : A L 'entrepôt de données stocke des données hautement structurées, structurées, optimisées pour le reporting et la business intelligence. Un lac de données stocke des données brutes pour l'analyse exploratoire et la modélisation prédictive. exploratoire et la modélisation prédictive.
  • Lac de données vs. marécage de données : Un "marais de données" est un lac de données détérioré, mal géré, dépourvu de métadonnées ou de gouvernance appropriées, ce qui rend les données irrécupérables ou inutilisables. mal géré, dépourvu de métadonnées appropriées ou de gouvernance, ce qui rend les données irrécupérables ou inutilisables. Pour être efficaces, la sécurité et le catalogage des données doivent être assurés. sécurité des données et un catalogage efficaces sont pour éviter cela.
  • Lac de données vs. base de données : Les bases de données relationnelles traditionnelles (SGBDR) telles que PostgreSQL sont conçues pour le traitement transactionnel avec des schémas rigides, alors que les lacs de données sont conçus pour le traitement analytique de divers types de données.

Avantages et défis

La mise en œuvre d'un lac de données offre une grande évolutivité, permettant aux organisations d'augmenter leur capacité de stockage à moindre coût par rapport aux entrepôts traditionnels. de stockage à moindre coût par rapport aux entrepôts traditionnels. Il favorise la démocratisation des données, en donnant l'accès à la même source de données brutes à différentes fins, de la visualisation des données à la recherche avancée. la visualisation des données à la recherche avancée.

Toutefois, les défis à relever sont les suivants confidentialité des données et la conformité, surtout lorsqu'il s'agit de stocker des informations personnelles sensibles (PII). En outre, en l'absence de pipelines de prétraitement des données et de de prétraitement des données et d'outils de gouvernance comme Databricks Unity Catalog, il est difficile de trouver des de données brutes, il peut s'avérer difficile de trouver des informations utiles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant