YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

データレイク

データレイクがAIとMLの基盤としてどのように機能するかを探求します。Ultralytics YOLO26のトレーニングのために生データを活用し、コンピュータービジョンワークフローを効率化する方法を学びましょう。

データレイクは、必要になるまで大量の生データをネイティブ形式で保持する一元化されたストレージリポジトリです。入力前にデータを構造化する必要がある従来のストレージシステムとは異なり、データレイクは構造化データ(行と列)、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(メール、ドキュメント、PDF)、およびバイナリデータ(画像、オーディオ、ビデオ)を含むデータを「そのまま」受け入れます。このアーキテクチャの柔軟性により、データレイクは現代のビッグデータ戦略、特に人工知能 (AI)機械学習 (ML)を活用する組織にとっての要石となっています。データ取得とデータ利用を分離することで、組織は大量の情報を比較的安価に保存し、特定の分析課題を後で検討することができます。

AIと機械学習におけるデータレイクの役割

AI開発の文脈において、データレイクの主な価値は、ディープラーニング (DL)ワークフローをサポートする能力にあります。高度なニューラルネットワークは、高い精度を達成するために多様で大量の訓練データを必要とします。データレイクは、コンピュータビジョン (CV)用の数百万の高解像度画像や、音声認識用の数千時間の音声といった生の資産が、処理される前に存在するステージンググラウンドとして機能します。

データサイエンティストは、データレイク内で「スキーマ・オン・リード」の手法を使用します。これは、構造がデータに適用されるのは、ストレージに書き込まれるときではなく、処理のために読み込まれるときだけであることを意味します。これにより、非常に高い柔軟性が得られます。同じ生データセットを、元のソースを変更することなく、異なる予測モデリングタスクのために複数の方法で処理できます。さらに、堅牢なデータレイクは、Amazon S3Azure Blob Storageのようなクラウドコンピューティングサービスと統合されることが多く、YOLO26のような大規模モデルのトレーニングに必要なスケーラブルな並列処理を可能にします。

データレイク vs. データウェアハウス

しばしば混同されますが、データレイクはデータウェアハウスとは異なります。データウェアハウスは構造化されたテーブルにデータを格納し、高速なSQLクエリとビジネスインテリジェンスレポートのために最適化されています。これは「スキーマオンライト」を使用します。つまり、データはシステムに入る前にETL (Extract, Transform, Load)プロセスを通じてクリーンアップおよび変換される必要があります。

対照的に、データレイクはストレージの容量と多様性に最適化されています。まだ目標が明確に定義されていない場合でも、教師なし学習や探索的分析をサポートします。例えば、データウェアハウスが先月の販売数を教えてくれるのに対し、データレイクはAIモデルがなぜ売れたのかを理解するのに役立つ生の顧客感情ログや画像データを保持します。

実際のアプリケーション

データレイクは、自動化の限界を押し広げる様々な産業において不可欠です。

  • 自動運転車: 自動運転技術の開発には、ペタバイト規模のセンサーデータの処理が必要です。自動運転車は、LiDAR点群、レーダー信号、高精細ビデオの連続的なストリームを生成します。データレイクはこれらの生テレメトリーデータを保存し、エンジニアが実世界のシナリオを再生して、様々な気象条件下で歩行者や障害物を識別する物体検出モデルを学習できるようにします。
  • ヘルスケア診断: 現代の医用画像解析において、病院は患者の病歴、ゲノムデータ、画像ファイル(MRI、CTスキャン)を安全なデータレイクに統合します。研究者は、この匿名化された非構造化データにアクセスして、腫瘍検出や疾患予測のためのモデルをトレーニングでき、その際、医用画像内の関心領域を分離するために、しばしばsegmentation技術を利用します。

Ultralyticsでデータレイクを活用する

Ultralytics Platformを扱う場合、ユーザーはトレーニング用のアノテーション付きデータセットを作成するために、組織のデータレイクから生データの一部を抽出することがよくあります。生画像が取得され、ラベル付けされると、それらを使用して最先端のモデルをトレーニングできます。

以下の例は、開発者がローカルデータセット(データレイクからのフェッチを模倣)をロードし、detectタスクのために YOLO26 モデルをトレーニングする方法を示しています。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。