Glossar

Datensee

Erfahren Sie, was Data Lakes sind, welche Funktionen und Vorteile sie haben und welche Rolle sie bei AI/ML spielen. Erfahren Sie, wie sie Big-Data-Management und -Analytik verändern.

Ein Data Lake ist ein zentralisiertes Repository, in dem große Mengen an Rohdaten in ihrem ursprünglichen Format gespeichert werden können, ohne dass bei der Aufnahme eine vordefinierte Struktur oder ein Schema vorgegeben wird. Im Gegensatz zu herkömmlichen Datenbanken oder Data Warehouses, bei denen die Daten vor der Speicherung strukturiert werden müssen, können in einem Data Lake strukturierte (z. B. Tabellen aus einer relationalen Datenbank), halbstrukturierte (z. B. JSON- oder XML-Dateien ) und unstrukturierte Daten (z. B. Bilder, Videos, Audiodaten, Textdokumente und Sensorprotokolle) nebeneinander gespeichert werden. Diese Flexibilität macht sie zu einem unschätzbaren Vorteil für die moderne Datenanalyse, insbesondere in den Bereichen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML), in denen häufig unterschiedliche Datensätze benötigt werden.

Zentrale Konzepte

Der Grundgedanke hinter einem Data Lake ist die Bereitstellung einer kostengünstigen und hoch skalierbaren Speicherlösung für Big Data. Zu den wichtigsten Merkmalen gehören:

  • Schema-auf-Lesen: Im Gegensatz zu Data Warehouses (schema-on-write) werden in Data Lakes Strukturen oder Schemata erst beim Einlesen der Daten für die Analyse angewendet. Dies ermöglicht ein schnelleres Einlesen von Rohdaten.
  • Speicherung von Rohdaten: Die Daten werden in ihrem ursprünglichen, unbearbeiteten Format gespeichert. So bleiben alle Details erhalten, die für künftige, unvorhergesehene Analysen oder das ML-Modelltraining nützlich sein könnten.
  • Skalierbarkeit: Data Lakes, die in der Regel auf verteilten Dateisystemen oder Cloud-Speichern wie Amazon S3 oder Google Cloud Storage basieren, können problemlos auf Petabytes oder sogar Exabytes an Daten skaliert werden.
  • Vielfältige Datentypen: Unterstützt eine Vielzahl von Datenformaten aus unterschiedlichen Quellen, was für umfassende Analysen in Bereichen wie Computer Vision (CV) entscheidend ist. Weitere Informationen finden Sie in der AWS-Dokumentation zu Data Lakes.

Data Lake vs. Data Warehouse Data Warehouse

Obwohl sowohl Data Lakes als auch Data Warehouses für die Speicherung großer Datenmengen verwendet werden, dienen sie unterschiedlichen Zwecken und gehen unterschiedlich mit Daten um.

  • Data Warehouse: Speichert gefilterte, strukturierte Daten, die bereits für einen bestimmten Zweck verarbeitet wurden (schema-on-write). Optimiert für Business Intelligence-Berichte und SQL-Abfragen. Stellen Sie sich das Data Warehouse wie ein Lager für abgefülltes Wasser vor - gereinigt und trinkfertig. Weitere Einzelheiten finden Sie unter Data Warehousing-Konzepte von IBM.
  • Datensee: Speichert Rohdaten in ihrem nativen Format (schema-on-read). Ideal für Datenexploration, Data Mining und das Trainieren von Modellen für maschinelles Lernen (ML), die Zugriff auf unverarbeitete Originaldaten erfordern. Stellen Sie sich das als einen natürlichen See vor - Wasser in seiner Rohform aus verschiedenen Quellen. Die Vorverarbeitung der Daten erfolgt nach dem Abruf der Daten und ist auf die jeweilige Analyseaufgabe zugeschnitten.

Relevanz für KI und maschinelles Lernen

Data Lakes sind die Grundlage für viele KI- und ML-Workflows, insbesondere für Deep Learning (DL). Die Fähigkeit, riesige Mengen unterschiedlicher Rohdaten zu speichern, ist für das Training anspruchsvoller Modelle unerlässlich. Datenwissenschaftler können auf diese Rohdaten für Aufgaben wie explorative Analysen, Datenbereinigung, Feature Engineering und die Erstellung hochwertiger Trainingsdaten zugreifen. Plattformen wie Ultralytics HUB können beispielsweise Datensätze nutzen (die oft in Data Lakes kuratiert und verwaltet oder von dort bezogen werden), um benutzerdefinierte Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung, Bildsegmentierung oder Bildklassifizierung zu trainieren. Der Prozess umfasst oft eine umfangreiche Datenerfassung und -kommentierung, bevor die Daten überhaupt den See erreichen.

Anwendungen in der realen Welt

Data Lakes ermöglichen leistungsstarke KI/ML-Anwendungen, indem sie die erforderliche Menge und Vielfalt an Daten bereitstellen. Hier sind zwei Beispiele:

  1. Entwicklung von autonomen Fahrzeugen: Unternehmen, die autonome Fahrzeuge entwickeln, sammeln riesige Mengen an Sensordaten (Kamerabilder, LiDAR-Punktwolken, Radar, GPS) aus Testflotten. Diese Rohdaten werden in einem Data Lake gespeichert. Ingenieure und Datenwissenschaftler greifen dann auf diese Daten zu, um Deep-Learning-Modelle für Aufgaben wie Objekterkennungsmodelle zur Identifizierung von Fußgängern und anderen Fahrzeugen, Spurhaltung und Navigation zu trainieren und zu validieren. Sehen Sie sich an, wie Unternehmen wie Waymo Technologie für selbstfahrende Fahrzeuge nutzen.
  2. Aufbau personalisierter Empfehlungssysteme: E-Commerce-Plattformen und Streaming-Dienste nutzen Data Lakes, um verschiedene Benutzerinteraktionsdaten zu speichern - Klicks, Betrachtungshistorie, Kaufdatensätze, Aktivitäten in sozialen Medien und demografische Daten der Benutzer. Diese Rohdaten werden mit Tools wie Apache Spark direkt auf dem Data Lake verarbeitet. Modelle für maschinelles Lernen werden dann auf diesen verarbeiteten Daten trainiert, um personalisierte Empfehlungssysteme zu generieren, die das Nutzerengagement und die Verkäufe verbessern, wie in KI-gesteuerten Einzelhandelslösungen zu sehen ist.

Vorteile und Herausforderungen

Vorteile:

  • Flexibel: Speichert jeden Datentyp ohne vorherige Strukturierung.
  • Skalierbarkeit: Verarbeitet mühelos große Datenmengen.
  • Kosteneffizienz: Nutzt kostengünstige Speicheroptionen.
  • Daten-Demokratisierung: Ermöglicht den Zugang zu Rohdaten für verschiedene Teams (Datenwissenschaftler, Analysten).
  • Zukunftssicher: Bewahrt Rohdaten für zukünftige, unbekannte Anwendungsfälle.

Herausforderungen:

  • Datenverwaltung: Die Sicherstellung von Datenqualität, Abstammung und Zugriffskontrolle kann komplex sein.
  • Sicherheit: Der Schutz sensibler Rohdaten erfordert robuste Maßnahmen zur Datensicherheit und zum Datenschutz.
  • Datensumpf-Risiko: Ohne ordnungsgemäße Verwaltung und Metadaten kann ein Data Lake unübersichtlich und schwer effektiv zu nutzen werden (ein "Datensumpf").
  • Komplexität: Erfordert spezielle Fähigkeiten für Management und Analyse. Wirksame MLOps-Praktiken sind entscheidend.

Data Lakes bieten die notwendige Skalierbarkeit und Flexibilität, um das wachsende Volumen und die Vielfalt von Daten zu verarbeiten, die für moderne KI-Lösungen erforderlich sind. Sie sind eine wichtige Komponente der Dateninfrastruktur, die fortschrittliche Analysen und Innovationen im Bereich des maschinellen Lernens unterstützt.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert