Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Data Lake

Entdecken Sie, was Data Lakes sind, welche Funktionen und Vorteile sie bieten und welche Rolle sie in KI/ML spielen. Erfahren Sie, wie sie Big-Data-Management und -Analysen transformieren.

Ein Data Lake ist ein zentralisiertes Speicher-Repository, in dem große Datenmengen in ihrem ursprünglichen Rohformat gespeichert werden können. Im Gegensatz zu einem traditionellen hierarchischen Data Warehouse, das Daten in Dateien oder Ordnern speichert, verwendet ein Data Lake eine flache Architektur zum Speichern von Daten, normalerweise in einem Objektspeicher. Dieser Ansatz ermöglicht es Unternehmen, strukturierte Daten zu speichern aus relationalen Datenbanken, halbstrukturierte Daten (wie CSV, Protokolle, XML, JSON) und unstrukturierte Daten (wie E-Mails, Dokumente und PDFs) sowie binäre Daten (Bilder, Audio, Video), ohne sie vorher zu verarbeiten. Für Fachleute, die in den Bereichen Künstliche Intelligenz (KI) und maschinelles Lernen (ML) arbeiten, bietet diese Architektur bietet diese Architektur die Flexibilität, auf riesige Datensätze für Experimente und Analysen zuzugreifen.

Die Rolle von Data Lakes in KI-Workflows

Der Hauptvorteil eines Data Lake für Datenwissenschaftler ist die Möglichkeit der Anwendung "Schema-on-read". In herkömmlichen Datenbanken muss die Struktur (Schema) definiert werden, bevor die Daten gespeichert werden (schema-on-write). In einem Data Lake werden die Rohdaten zuerst gespeichert, und die Struktur wird erst dann angewendet, wenn die Daten zur Verarbeitung gelesen werden. Dies ist entscheidend für Deep Learning (DL)-Workflows, bei denen sich die sich die Anforderungen an die Vorverarbeitung häufig ändern, wenn sich die Modelle weiterentwickeln.

Ingenieure nutzen häufig Cloud Computing-Dienste wie Amazon S3 oder Azure Data Lake Storage um diese Repositories aufzubauen. Diese Plattformen lassen sich nahtlos mit Verarbeitungsframeworks wie Apache Spark und ermöglichen effiziente Abfragen und Datenanalysen auf Petabyte-Datensätzen.

Hier ein einfaches Beispiel dafür, wie ein Python das Training unter Verwendung einer Datensatzkonfigurationsdatei einleiten könnte, die auf Daten aus einer Lake-Umgebung verweist auf Daten aus einer See-Umgebung verweist:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Anwendungsfälle in der Praxis

Data Lakes sind das Rückgrat moderner Big-Data-Initiativen in verschiedenen Branchen.

  1. Autonome Fahrzeuge: Die Entwicklung selbstfahrender Autos erfordert die Verarbeitung von Millionen von Kilometern an Fahrdaten. Fahrzeuge generieren Sensor-Rohdaten Logs, LiDAR-Punktwolken und hochauflösendes Videomaterial. All diese heterogenen Daten werden in einem Datensee gesammelt. Die Forscher fragen dann bestimmte Szenarien ab - wie "verschneites Wetter" oder "Fußgänger bei Nacht" - um verschiedene Trainingssätze für Objekterkennungsmodelle zu erstellen. Dies unterstützt kontinuierliche Verbesserung der KI in automobilen Sicherheitssystemen.
  2. Medizinische Bildanalyse: Einrichtungen des Gesundheitswesens erzeugen große Mengen an Bilddaten (Röntgenbilder, MRTs, CT-Scans) in Formaten wie DICOM. A Data Lake ermöglicht es Krankenhäusern, diese Informationen zusammen mit elektronischen Patientenakten (EHR) zu zentralisieren. Forscher können dann auf diese multimodalen Daten zugreifen, um Diagnosemodelle zu trainieren, z. B. mit YOLO11 um Anomalien in Scans zu erkennen, was einen erheblichen KI im Gesundheitswesen vorantreiben.

Unterscheidung von verwandten Konzepten

Es ist wichtig, einen Data Lake von anderen Speicherkonzepten abzugrenzen:

  • Data Lake vs. Data Warehouse: A Data Warehouse speichert stark strukturierte, verarbeitete Daten, die für Berichte und Business Intelligence optimiert sind. Ein Data Lake speichert Rohdaten für explorative Analyse und prädiktive Modellierung.
  • Datensee vs. Datensumpf: Ein "Datensumpf" ist ein veralteter Datensee, der schlecht verwaltet wird, dem es an geeigneten Metadaten oder Governance mangelt, wodurch die Daten unauffindbar oder unbrauchbar werden. Effektive Datensicherheit und Katalogisierung sind erforderlich, um dies zu verhindern.
  • Data Lake vs. Datenbank: Traditionelle relationale Datenbanken (RDBMS) wie PostgreSQL sind für die transaktionale Verarbeitung mit starren Schemata konzipiert, während Data Lakes für die analytische Verarbeitung verschiedener Datentypen konzipiert sind.

Vorteile und Herausforderungen

Die Implementierung eines Data Lake bietet eine erhebliche Skalierbarkeit, die es Unternehmen ermöglicht, die Speicherkapazität Speicherkapazität zu geringeren Kosten im Vergleich zu herkömmlichen Lagern zu erweitern. Er fördert die Demokratisierung von Daten, indem er verschiedene Teams Zugriff auf dieselbe Rohdatenquelle für unterschiedliche Zwecke, von Datenvisualisierung bis hin zu fortgeschrittener Forschung.

Zu den Herausforderungen gehören jedoch die Aufrechterhaltung Datenschutz und die Einhaltung von Vorschriften, insbesondere bei der Speicherung sensibler personenbezogener Daten (PII). Außerdem sind ohne robuste Datenvorverarbeitungspipelines und Governance Governance-Tools wie Databricks Unity Catalog, die Suche nach in der Menge der Rohdaten wertvolle Erkenntnisse zu finden.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten