Yolo 深圳
深セン
今すぐ参加
用語集

データレイク

データレイクがAIと機械学習の基盤として機能する仕組みを探求しましょう。Ultralytics トレーニングやコンピュータビジョンワークフローの効率化に生データを活用する方法を学びます。

データレイクは、必要な時まで膨大な量の生データをネイティブ形式で保持する集中型ストレージリポジトリである。 従来のストレージシステムではデータ投入前に構造化が必要でしたが、データレイクは構造化データ(行と列)、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(メール、文書、PDF)、バイナリデータ(画像、音声、動画)を「そのまま」受け入れます。このアーキテクチャの柔軟性により、データレイクは現代のビッグデータ戦略の基盤となり、特に人工知能(AI)や機械学習(ML)を活用する組織において重要です。データ収集とデータ利用を分離することで、組織は比較的低コストで膨大な情報プールを保存できます。 ビッグデータ戦略基盤となり、特に人工知能(AI) や機械学習(ML)を活用する組織にとって重要である。データ収集とデータ利用を分離することで、組織は膨大な情報プールを比較的低コストで保管し、具体的な分析課題は後から検討できる。

データレイクがAIと機械学習において果たす役割

AI開発の文脈において、データレイクの主な価値はディープラーニング(DL)ワークフローを支援する能力にある。 高度なニューラルネットワークは高い精度を達成するために多様で膨大なトレーニングデータを必要とする。データレイクは、コンピュータビジョン(CV)用の数百万枚の高解像度画像や音声認識用の数千時間分の音声データといった生データを処理前に保管する中間拠点として機能する。

データサイエンティストはデータレイク内で「スキーマオンリード」手法を採用する。これはデータ構造がストレージへの書き込み時ではなく、処理のために読み込まれる際にのみ適用されることを意味する。これにより極めて高い俊敏性が実現され、元のソースを変更することなく同一の生データセットを多様な予測モデリングタスク向けに複数の方式で処理できる。 さらに、堅牢なデータレイクはAmazon S3 やAzure Blob Storageなどの クラウドコンピューティングサービスと連携することが多く、YOLO26のような大規模モデルのトレーニングに必要なスケーラブルな並列処理を実現します。

データレイク対データウェアハウス

データレイクはデータウェアハウスと混同されがちですが、これとは異なります。 データウェアハウスは構造化されたテーブルにデータを格納し、高速なSQLクエリとビジネスインテリジェンスレポート向けに最適化されています。 「書き込み時スキーマ」を採用しており、データはシステムに入る前にETL(抽出、変換、ロード)プロセスを通じてクリーニングおよび変換される必要があります。

逆に、データレイクはストレージの容量と多様性に最適化されています。 目的がまだ定義されていない場合でも、 教師なし学習や探索的分析をサポートします。 例えば、データウェアハウスは先月の販売製品数を示す一方、 データレイクは顧客の感情に関する生のログや画像データを保持し、 AIモデルが販売理由を理解するのに役立ちます。

実際のアプリケーション

データレイクは、自動化の限界を押し広げる様々な産業において重要な役割を果たしています:

  • 自動運転車:自動運転技術の開発にはペタバイト規模のセンサーデータ処理が必要である。自動運転車はLiDAR点群データ、レーダー信号、高精細映像を継続的に生成する。データレイクはこの生テレメトリデータを保存し、エンジニアが実世界のシナリオを再現して物体検出モデルを訓練することを可能にする。これにより、様々な気象条件下での歩行者や障害物の識別が可能となる。
  • 医療診断: 現代の医療画像解析では、病院は患者の病歴、ゲノムデータ、画像ファイル(MRI、CTスキャン)を安全なデータレイクに統合します。研究者はこの匿名化された非構造化データにアクセスし、腫瘍検出や疾患予測のためのモデルを訓練できます。多くの場合、医療画像内の関心領域を分離するためにセグメンテーション技術を活用します。

Ultralyticstralyticsによるデータレイクの活用

Ultralytics を使用する際、ユーザーは組織のデータレイクから生データのサブセットを抽出し、トレーニング用の注釈付きデータセットを作成することがよくあります。生画像を取得してラベル付けした後、それらを用いて最先端モデルのトレーニングを行うことが可能です。

以下の例は、開発者がローカルデータセットをロード(データレイクからのフェッチを模倣)して 検出タスク向けにYOLO26モデルをトレーニングする方法を示しています。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加