Glossar

Datensee

Erfahren Sie, was Data Lakes sind, welche Funktionen und Vorteile sie haben und welche Rolle sie bei AI/ML spielen. Erfahren Sie, wie sie Big-Data-Management und -Analytik verändern.

Ein Data Lake ist ein zentrales Repository, in dem Sie alle strukturierten, halbstrukturierten und unstrukturierten Daten in beliebigem Umfang speichern können. Im Gegensatz zu einem herkömmlichen Data Warehouse, das Daten in einem vordefinierten, verarbeiteten Format speichert, hält ein Data Lake eine riesige Menge an Rohdaten in ihrem ursprünglichen Format vor, bis sie benötigt werden. Für künstliche Intelligenz (KI) und maschinelles Lernen (ML) ist diese Architektur unglaublich leistungsfähig, da sie Datenwissenschaftlern einen flexiblen, riesigen Pool von Originaldaten zur Verfügung stellt, der sich perfekt für das Training komplexer Modelle, die Durchführung explorativer Analysen und die Entdeckung neuer Muster eignet, ohne durch ein ursprüngliches Schema eingeschränkt zu sein.

Wie Data Lakes bei KI und maschinellem Lernen funktionieren

In einem typischen KI-Workflow dient ein Data Lake als primäre Quelle der Wahrheit für alle potenziellen Datenquellen. Der Prozess beginnt mit der Datenaufnahme, bei der Rohdaten aus verschiedenen Quellen - z. B. Benutzerprotokolle, Social-Media-Feeds, IoT-Sensorwerte, Bilder und Videos - in den See geladen werden. Diese Daten werden in ihrem ursprünglichen, unveränderten Zustand gespeichert. Wenn ein Projekt beginnt, z. B. das Training eines neuen Computer-Vision-Modells, können Ingenieure auf den See zugreifen, um eine relevante Teilmenge der Daten zu extrahieren. Dieser "Schema-on-Read"-Ansatz bedeutet, dass die Struktur während der Datenanalyse- und Datenvorverarbeitungsphasen angewendet wird und nicht erst beim Einlesen. Diese Flexibilität ist entscheidend für die iterative ML-Entwicklung, bei der sich die Datenanforderungen mit der Entwicklung des Modells ändern können. Große Cloud-Computing-Anbieter wie AWS und Google Cloud bieten robuste Dienste für den Aufbau und die Verwaltung von Data Lakes.

Real-World AI/ML-Anwendungen

Data Lakes sind von grundlegender Bedeutung für die Entwicklung groß angelegter KI-Lösungen, die auf vielfältigen und umfangreichen Datensätzen basieren.

  1. Autonome Fahrzeugentwicklung: Eine Flotte selbstfahrender Autos erzeugt täglich Terabytes an Sensor-Rohdaten, darunter LiDAR-Punktwolken, hochauflösende Videos und Radarmessungen. Diese Big Data werden in einen Data Lake gestreamt. Ingenieure und Forscher können diesen riesigen Datenspeicher später abfragen, um seltene oder schwierige Szenarien - wie etwa einen Fußgänger, der nachts unerwartet eine Straße überquert - für das Modelltraining und die Simulation zu finden. Dies ermöglicht die kontinuierliche Verbesserung von Wahrnehmungsmodellen für Aufgaben wie die Objekterkennung und stellt sicher, dass sie auch in Grenzfällen robust sind. Plattformen wie Databricks werden häufig zur Verwaltung dieser Arbeitsabläufe eingesetzt.
  2. Analyse medizinischer Bilder: Krankenhäuser und Forschungseinrichtungen sammeln medizinische Bilder (MRTs, Röntgenbilder, CT-Scans) von verschiedenen Geräten in unterschiedlichen Formaten. Durch die Zentralisierung dieser Daten in einem Data Lake schaffen sie einen reichhaltigen, vielfältigen Datensatz für Forschung und Entwicklung. Datenwissenschaftler können auf diese Bildgebungs-Rohdaten zugreifen, um KI-Diagnosemodelle zu entwickeln, indem sie zum Beispiel ein YOLO-Modell auf einer Sammlung wie dem Hirntumordatensatz trainieren. Durch die Speicherung der Rohdaten bleiben wichtige Details erhalten, die in vorverarbeiteten Formaten verloren gehen könnten, wodurch genauere KI-Lösungen im Gesundheitswesen unterstützt werden.

Unterscheidung von verwandten Konzepten

Es ist wichtig, Data Lakes von anderen Datenspeicherparadigmen zu unterscheiden.

  • Data Warehouse vs. Data Lake: Der Hauptunterschied liegt in der Datenstruktur und dem Zweck. Ein Data Warehouse speichert strukturierte, gefilterte Daten, die für einen bestimmten Zweck verarbeitet wurden, in der Regel für Geschäftsanalysen. Im Gegensatz dazu speichert ein Data Lake rohe, ungefilterte Daten aller Arten (strukturiert, halbstrukturiert und unstrukturiert) ohne ein vordefiniertes Schema. Dadurch eignen sich Data Lakes besser für den explorativen Charakter des maschinellen Lernens.
  • Datenbank vs. Data Lake: Bei einer herkömmlichen Datenbank, insbesondere bei einer relationalen Datenbank wie SQL, müssen die Daten einem strengen, vordefinierten Schema entsprechen, bevor sie geschrieben werden können. Dies wird als "Schema-auf-Schreiben" bezeichnet. Data Lakes verwenden einen "Schema-on-Read"-Ansatz, der die nötige Flexibilität bietet, um die verschiedenen Datenformate zu verarbeiten, die in der künstlichen Intelligenz üblich sind, z. B. Bilder, Text und Sensorprotokolle. Während Datenbanken für schnelle transaktionale Abfragen optimiert sind, werden Data Lakes für die groß angelegte analytische Verarbeitung mit Tools wie Apache Spark entwickelt.
  • Data Mining vs. Data Lake: Ein Data Lake ist ein Speicher-Repository. Data Mining hingegen ist der Prozess der Entdeckung von Mustern und Erkenntnissen aus großen Datensätzen. Data-Mining-Techniken werden auf die in einem Data Lake gespeicherten Daten angewendet.

Vorteile und Herausforderungen

Vorteile:

  • Flexibel: Speichert jeden Datentyp aus jeder Quelle ohne vorherige Strukturierung.
  • Skalierbarkeit: Mit verteilten Speichersystemen wie Apache Hadoop können große Datenmengen von Terabyte bis Petabyte problemlos verarbeitet werden.
  • Kosteneffizienz: Nutzung von kostengünstigem Standardspeicher, wodurch die Speicherung großer Datenmengen erschwinglich wird.
  • Daten-Demokratisierung: Macht Rohdaten für verschiedene Teams (Datenwissenschaftler, Analysten, ML-Ingenieure) für verschiedene Anwendungsfälle zugänglich, von der Berichterstattung bis zum Deep Learning.
  • Zukunftssicher: Die Rohdaten werden auf unbestimmte Zeit aufbewahrt, so dass künftige Analysen mit neuen Tools und Techniken möglich sind, die es heute noch nicht gibt.

Herausforderungen:

  • Datenverwaltung: Die Sicherstellung von Datenqualität, Abstammung und Zugriffskontrolle kann komplex sein.
  • Sicherheit: Der Schutz sensibler Rohdaten erfordert robuste Maßnahmen zur Datensicherheit und zum Datenschutz.
  • Risiko Datensumpf: Ohne ordnungsgemäße Verwaltung, Metadaten und Katalogisierung kann ein Data Lake unübersichtlich und schwer effektiv nutzbar werden und sich in einen "Datensumpf" verwandeln - ein Konzept, das von führenden Datenmanagement-Unternehmen erläutert wird.
  • Komplexität: Erfordert spezielle Fähigkeiten für die Verwaltung und Analyse. Effektive MLOps-Praktiken sind entscheidend für die Verwaltung des Lebenszyklus von der Datenaufnahme bis zur Modellbereitstellung.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert