Yolo 深圳
深セン
今すぐ参加
用語集

データレイク

データレイクとは何か、その特徴、利点、およびAI/MLにおける役割について解説します。ビッグデータ管理と分析をどのように変革するかを学びましょう。

データレイクは、膨大な量のデータを生のフォーマットで保持するために設計された一元化されたストレージリポジトリである。 データをファイルやフォルダに格納する従来の階層型データウェアハウスとは異なり、データレイクはフラットなアーキテクチャを採用している。 アーキテクチャーを使用し、通常はオブジェクトストレージにデータを格納する。このアプローチにより、組織は構造化データ を保存することができます。 非構造化データ(電子メール、文書、PDFなど) バイナリデータ(画像、音声、動画)などを処理することなく保存することができる。人工知能(AI)や 人工知能(AI)や 機械学習(ML)の専門家にとって、このアーキテクチャは は、実験や分析のために膨大なデータセットにアクセスする柔軟性を提供する。

AIワークフローにおけるデータレイクの役割

データレイクがデータサイエンティストにもたらす主な利点は データサイエンティストにとってデータレイクの最大の利点は "スキーマ・オン・リード "を適用できることだ。従来のデータベースでは、データを保存する前に構造(スキーマ)を定義しなければならない (スキーマ・オン・ライト)。データレイクでは、未加工のデータが最初に格納され、データを読み込んで処理するときに初めて構造が適用される。 処理のためにデータが読み込まれるときにのみ適用される。これは ディープラーニング(DL)ワークフローでは非常に重要である。 前処理の要件は、モデルの進化に伴って変化することが多い。

エンジニアはしばしばクラウド・コンピューティング・サービス Amazon S3や Azure Data Lake Storage などのクラウドコンピューティングサービスを活用することが多い。これらのプラットフォームは、以下のような処理フレームワークとシームレスに統合されている。 これらのプラットフォームは、Apache Sparkのような処理フレームワークとシームレスに統合され、ペタバイトスケールのデータセットに対する効率的なクエリ データ分析が可能になります。

以下は、Python スクリプトが、レイク環境から取得したデータを指すデータセット設定ファイルを使用して、どのようにトレーニングを開始するかの簡単な例である。 を使用して学習を開始する場合の簡単な例です:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

実際のアプリケーション

データレイクは、様々な業界における最新のビッグデータ構想のバックボーンである。 を支えている。

  1. 自律走行車 自動運転車の開発には、何百万マイルもの走行データを処理する必要がある。車両は生のセンサー ログ、LiDARポイント・クラウド、高解像度ビデオ映像を生成する。これらの異種データはすべてデータレイクに捨てられます。 研究者は次に、「雪の天気」や「夜の歩行者」といった特定のシナリオをクエリし、以下のような多様なトレーニングセットを作成する。 物体検出モデルのための多様なトレーニングセットを作成する。 オブジェクト検出モデルのための多様なトレーニングセットを作成します。これにより 継続的な改善 自動車安全システムにおけるAI
  2. 医療画像解析 医療機関では、DICOMのようなフォーマットで大量の画像データ(X線、MRI、CTスキャン)が生成されます。A データレイクにより、病院はこの情報を患者の電子カルテ(EHR)と共に一元管理できる。 研究者は、このマルチモーダルデータにアクセスして、以下のような診断モデルをトレーニングすることができる。 YOLO11を使用してスキャンの異常を特定するなど、診断モデルを学習することができる。 ヘルスケアにおけるAIの進歩

関連概念の区別

データレイクを他のストレージコンセプトと区別することは重要だ:

  • データレイクとデータウェアハウス:A データウェアハウスは高度に構造化され データウェアハウスは、高度に構造化され、レポーティングやビジネスインテリジェンスに最適化されたデータを格納する。データレイクは、探索的分析 分析および予測モデリング用の生データを保存する。
  • データレイクとデータスワンプデータ沼」とは、管理が不十分で劣化したデータレイクのことである。 適切なメタデータやガバナンスが欠如し、データを復元不可能または使用不能にしている。効果的な データ・セキュリティとカタログ化が必要である。 これを防ぐために必要です。
  • データレイクとデータベースの比較PostgreSQLのような従来のリレーショナル・データベース(RDBMS)は、厳格なスキーマを持つトランザクション処理用に設計されている。 PostgreSQLのような従来のリレーショナル・データベース(RDMS)は、厳格なスキーマを持つトランザクション処理用に設計されている、 一方、データレイクは多様なデータ型の分析処理用に設計されている。

利点と課題

データレイクを導入することで、従来のウェアハウスと比較して低コストでストレージ容量を拡張することができます。 従来のウェアハウスと比較して低コストでストレージ容量を拡張できる。データレイクはデータの民主化を促進し データの可視化から高度な研究まで、さまざまなチームがさまざまな目的で同じ生データソースにアクセスできるようになります。 データの可視化から高度な研究まで、さまざまなチームがさまざまな目的で同じ生データソースにアクセスできるようになります。

しかし、次のような課題もある。 データプライバシーとコンプライアンスが含まれる、 特に、機密性の高い個人情報(PII)を保存する場合。さらに、堅牢な データ前処理パイプラインやガバナンスツール Databricks Unity Catalogのようなツールがなければ、大量の生データの中から価値あるインサイト 大量の生データの中から価値ある洞察を見つけ出すことは困難です。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加