Data Lake
Erkunde, wie Data Lakes als Grundlage für KI und ML dienen. Lerne, Rohdaten für das Training von Ultralytics YOLO26 zu nutzen und Computer-Vision-Workflows zu rationalisieren.
Ein Data Lake ist ein zentrales Speicher-Repository, das eine riesige Menge an Rohdaten in ihrem ursprünglichen Format aufbewahrt, bis sie benötigt werden. Im Gegensatz zu herkömmlichen Speichersystemen, die erfordern, dass Daten vor der Eingabe strukturiert werden, akzeptiert ein Data Lake Daten "wie sie sind". Dies umfasst strukturierte Daten (Zeilen und Spalten), halbstrukturierte Daten (CSV, Protokolle, XML, JSON) sowie unstrukturierte Daten (E-Mails, Dokumente, PDFs) und Binärdaten (Bilder, Audio, Video). Diese architektonische Flexibilität macht Data Lakes zu einem Grundpfeiler moderner Big Data-Strategien, insbesondere für Unternehmen, die Artificial Intelligence (AI) und Machine Learning (ML) nutzen. Durch die Entkoppelung von Datenerfassung und Datennutzung können Unternehmen riesige Mengen an Informationen relativ kostengünstig speichern und erst später entscheiden, welche spezifischen Analysefragen sie beantworten möchten.
Link to this sectionDie Rolle von Data Lakes in der KI und beim Machine Learning#
Im Kontext der KI-Entwicklung liegt der Hauptwert eines Data Lakes in seiner Fähigkeit, Deep Learning (DL)-Workflows zu unterstützen. Fortschrittliche neuronale Netze erfordern vielfältige und umfangreiche training data, um eine hohe Genauigkeit zu erreichen. Ein Data Lake fungiert als Bereitstellungsort, an dem Rohdaten – wie Millionen hochauflösender Bilder für Computer Vision (CV) oder Tausende Stunden Audio für die Speech Recognition – gespeichert werden, bevor sie verarbeitet werden.
Data Scientists verwenden in Data Lakes "Schema-on-Read"-Methoden. Das bedeutet, dass die Struktur erst dann auf die Daten angewendet wird, wenn sie zur Verarbeitung gelesen werden, anstatt bereits beim Schreiben in den Speicher. Dies ermöglicht eine enorme Agilität: Derselbe Rohdatensatz kann auf verschiedene Weise für unterschiedliche predictive modeling-Aufgaben verarbeitet werden, ohne die Originalquelle zu verändern. Darüber hinaus lassen sich robuste Data Lakes häufig in cloud computing-Dienste wie Amazon S3 oder Azure Blob Storage integrieren, was eine skalierbare, parallele Verarbeitung ermöglicht, die für das Training schwerer Modelle wie YOLO26 erforderlich ist.
Link to this sectionData Lake vs. Data Warehouse#
Obwohl sie oft verwechselt werden, unterscheidet sich ein Data Lake von einem Data Warehouse. Ein data warehouse speichert Daten in strukturierten Tabellen und ist auf schnelle SQL-Abfragen und Business-Intelligence-Reporting optimiert. Es nutzt "Schema-on-Write", was bedeutet, dass Daten vor der Eingabe in das System bereinigt und mittels eines ETL (Extract, Transform, Load)-Prozesses transformiert werden müssen.
Ein Data Lake hingegen ist auf Speichervolumen und -vielfalt optimiert. Er unterstützt unsupervised learning und explorative Analysen, bei denen das Ziel möglicherweise noch nicht definiert ist. Zum Beispiel kann ein Data Warehouse dir sagen, wie viele Produkte im letzten Monat verkauft wurden, während ein Data Lake die rohen customer sentiment-Protokolle und Bilddaten enthält, die einem KI-Modell helfen zu verstehen, warum sie verkauft wurden.
Link to this sectionPraxisanwendungen#
Data Lakes sind maßgeblich für verschiedene Branchen, die die Grenzen der Automatisierung erweitern:
- Autonome Fahrzeuge: Die Entwicklung von selbstfahrender Technologie erfordert die Verarbeitung von Petabytes an Sensordaten. Autonomous vehicles erzeugen kontinuierliche Ströme von LiDAR-Punktwolken, Radarsignalen und hochauflösenden Videos. Ein Data Lake speichert diese Roh-Telemetrie und ermöglicht es Ingenieuren, reale Szenarien nachzuspielen, um Object Detection-Modelle darauf zu trainieren, Fußgänger und Hindernisse bei unterschiedlichen Wetterbedingungen zu erkennen.
- Gesundheitsdiagnostik: In der modernen medical image analysis konsolidieren Krankenhäuser Patientenhistorien, genomische Daten und Bilddateien (MRT, CT-Scans) in einem sicheren Data Lake. Forscher können dann auf diese anonymisierten, unstrukturierten Daten zugreifen, um Modelle für die tumor detection oder Krankheitsvorhersage zu trainieren, wobei sie häufig segmentation-Techniken nutzen, um interessante Regionen in medizinischen Bildern zu isolieren.
Link to this sectionNutzung von Data Lakes mit Ultralytics#
Bei der Arbeit mit der Ultralytics Platform extrahieren Nutzer häufig Teilmengen von Rohdaten aus dem Data Lake ihres Unternehmens, um annotierte Datensätze für das Training zu erstellen. Sobald die Rohbilder abgerufen und beschriftet wurden, können sie für das Training modernster Modelle verwendet werden.
Das folgende Beispiel zeigt, wie ein Entwickler einen lokalen Datensatz lädt (was das Abrufen aus einem Data Lake simuliert), um das YOLO26-Modell für eine Erkennungsaufgabe zu trainieren.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





