データレイクとは何か、その特徴、利点、およびAI/MLにおける役割について解説します。ビッグデータ管理と分析をどのように変革するかを学びましょう。
データレイクは、膨大な量のデータを生のフォーマットで保持するために設計された一元化されたストレージリポジトリである。 データをファイルやフォルダに格納する従来の階層型データウェアハウスとは異なり、データレイクはフラットなアーキテクチャを採用している。 アーキテクチャーを使用し、通常はオブジェクトストレージにデータを格納する。このアプローチにより、組織は構造化データ を保存することができます。 非構造化データ(電子メール、文書、PDFなど) バイナリデータ(画像、音声、動画)などを処理することなく保存することができる。人工知能(AI)や 人工知能(AI)や 機械学習(ML)の専門家にとって、このアーキテクチャは は、実験や分析のために膨大なデータセットにアクセスする柔軟性を提供する。
データレイクがデータサイエンティストにもたらす主な利点は データサイエンティストにとってデータレイクの最大の利点は "スキーマ・オン・リード "を適用できることだ。従来のデータベースでは、データを保存する前に構造(スキーマ)を定義しなければならない (スキーマ・オン・ライト)。データレイクでは、未加工のデータが最初に格納され、データを読み込んで処理するときに初めて構造が適用される。 処理のためにデータが読み込まれるときにのみ適用される。これは ディープラーニング(DL)ワークフローでは非常に重要である。 前処理の要件は、モデルの進化に伴って変化することが多い。
エンジニアはしばしばクラウド・コンピューティング・サービス Amazon S3や Azure Data Lake Storage などのクラウドコンピューティングサービスを活用することが多い。これらのプラットフォームは、以下のような処理フレームワークとシームレスに統合されている。 これらのプラットフォームは、Apache Sparkのような処理フレームワークとシームレスに統合され、ペタバイトスケールのデータセットに対する効率的なクエリ データ分析が可能になります。
以下は、Python スクリプトが、レイク環境から取得したデータを指すデータセット設定ファイルを使用して、どのようにトレーニングを開始するかの簡単な例である。 を使用して学習を開始する場合の簡単な例です:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
データレイクは、様々な業界における最新のビッグデータ構想のバックボーンである。 を支えている。
データレイクを他のストレージコンセプトと区別することは重要だ:
データレイクを導入することで、従来のウェアハウスと比較して低コストでストレージ容量を拡張することができます。 従来のウェアハウスと比較して低コストでストレージ容量を拡張できる。データレイクはデータの民主化を促進し データの可視化から高度な研究まで、さまざまなチームがさまざまな目的で同じ生データソースにアクセスできるようになります。 データの可視化から高度な研究まで、さまざまなチームがさまざまな目的で同じ生データソースにアクセスできるようになります。
しかし、次のような課題もある。 データプライバシーとコンプライアンスが含まれる、 特に、機密性の高い個人情報(PII)を保存する場合。さらに、堅牢な データ前処理パイプラインやガバナンスツール Databricks Unity Catalogのようなツールがなければ、大量の生データの中から価値あるインサイト 大量の生データの中から価値ある洞察を見つけ出すことは困難です。


