Data Lake
Explore comment les lacs de données servent de fondation pour l'IA et le ML. Apprends à tirer parti des données brutes pour entraîner Ultralytics YOLO26 et rationaliser les flux de travail de vision par ordinateur.
Un data lake est un référentiel de stockage centralisé qui conserve une vaste quantité de données brutes dans leur format natif jusqu'à ce qu'elles soient nécessaires. Contrairement aux systèmes de stockage traditionnels qui exigent que les données soient structurées avant leur entrée, un data lake accepte les données « telles quelles », y compris les données structurées (lignes et colonnes), les données semi-structurées (CSV, journaux, XML, JSON), les données non structurées (e-mails, documents, PDF) et les données binaires (images, audio, vidéo). Cette flexibilité architecturale fait des data lakes une pierre angulaire des stratégies modernes de Big Data, en particulier pour les organisations qui exploitent l'Intelligence Artificielle (IA) et l'Apprentissage Automatique (ML). En découplant la capture des données de leur utilisation, les organisations peuvent stocker d'immenses réserves d'informations à moindre coût et définir les questions d'analyse spécifiques plus tard.
Link to this sectionLe rôle des data lakes dans l'IA et l'apprentissage automatique#
Dans le contexte du développement de l'IA, la valeur principale d'un data lake réside dans sa capacité à prendre en charge les flux de travail de Deep Learning (DL). Les réseaux de neurones avancés nécessitent des données d'entraînement diverses et volumineuses pour atteindre une haute précision. Un data lake agit comme une zone de stockage où les actifs bruts — tels que des millions d'images haute résolution pour la Vision par Ordinateur (CV) ou des milliers d'heures d'audio pour la Reconnaissance Vocale — résident avant d'être traités.
Les data scientists utilisent des méthodologies de « schema-on-read » au sein des data lakes. Cela signifie que la structure est appliquée aux données uniquement lorsqu'elles sont lues pour être traitées, plutôt que lorsqu'elles sont écrites dans le stockage. Cela permet une immense agilité ; le même jeu de données brut peut être traité de multiples façons pour différentes tâches de modélisation prédictive sans altérer la source originale. De plus, les data lakes robustes s'intègrent souvent à des services de cloud computing comme Amazon S3 ou Azure Blob Storage, permettant le traitement parallèle et évolutif nécessaire à l'entraînement de modèles lourds comme YOLO26.
Link to this sectionData lake vs. Data warehouse#
Bien qu'ils soient souvent confondus, un data lake est distinct d'un data warehouse. Un data warehouse stocke les données dans des tables structurées et est optimisé pour les requêtes SQL rapides et le reporting d'intelligence économique. Il utilise le « schema-on-write », ce qui signifie que les données doivent être nettoyées et transformées via un processus ETL (Extract, Transform, Load) avant d'entrer dans le système.
À l'inverse, un data lake est optimisé pour le volume et la variété de stockage. Il prend en charge l'apprentissage non supervisé et l'analyse exploratoire où l'objectif n'est peut-être pas encore défini. Par exemple, un data warehouse pourrait te dire combien de produits ont été vendus le mois dernier, tandis qu'un data lake conserve les journaux bruts de sentiment client et les données d'image qui aident un modèle d'IA à comprendre pourquoi ils se sont vendus.
Link to this sectionApplications concrètes#
Les data lakes sont essentiels dans divers secteurs qui repoussent les limites de l'automatisation :
- Véhicules autonomes : le développement de la technologie de conduite autonome nécessite le traitement de pétaoctets de données de capteurs. Les véhicules autonomes génèrent des flux continus de nuages de points LiDAR, de signaux radar et de vidéo haute définition. Un data lake stocke cette télémétrie brute, permettant aux ingénieurs de rejouer des scénarios du monde réel pour entraîner des modèles de Détection d'Objets à identifier les piétons et les obstacles dans des conditions météorologiques variées.
- Diagnostics de santé : Dans l'analyse d'images médicales moderne, les hôpitaux consolident l'historique des patients, les données génomiques et les fichiers d'imagerie (IRM, scanners CT) dans un data lake sécurisé. Les chercheurs peuvent ensuite accéder à ces données anonymisées et non structurées pour entraîner des modèles de détection de tumeurs ou de prédiction de maladies, utilisant souvent des techniques de segmentation pour isoler les régions d'intérêt au sein de l'imagerie médicale.
Link to this sectionUtiliser les data lakes avec Ultralytics#
Lorsque tu travailles avec la Plateforme Ultralytics, les utilisateurs extraient souvent des sous-ensembles de données brutes du data lake de leur organisation pour créer des jeux de données annotés destinés à l'entraînement. Une fois que les images brutes sont récupérées et étiquetées, elles peuvent être utilisées pour entraîner des modèles de pointe.
L'exemple suivant montre comment un développeur peut charger un jeu de données local (imitant une récupération depuis un data lake) pour entraîner le modèle YOLO26 pour une tâche de détection.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





