Data Lake
データレイクがAIとMLの基盤としてどのように機能するかを探索しましょう。Ultralytics YOLO26のトレーニングに生データを活用し、コンピュータビジョンのワークフローを効率化する方法を学びます。
A data lake is a centralized storage repository that holds a vast amount of raw data in its native format until it is needed. Unlike traditional storage systems that require data to be structured before entry, a data lake accepts data "as is," including structured data (rows and columns), semi-structured data (CSV, logs, XML, JSON), and unstructured data (emails, documents, PDFs) and binary data (images, audio, video). This architectural flexibility makes data lakes a cornerstone of modern Big Data strategies, particularly for organizations leveraging Artificial Intelligence (AI) and Machine Learning (ML). By decoupling data capture from data use, organizations can store massive pools of information relatively cheaply and figure out the specific analysis questions later.
Link to this sectionAIおよび機械学習におけるデータレイクの役割#
AI開発の文脈において、データレイクの主な価値はディープラーニング (DL)ワークフローをサポートできる点にあります。高度なニューラルネットワークでは、高い精度を達成するために多様で膨大なトレーニングデータが必要です。データレイクは、コンピュータビジョン (CV)用の何百万枚もの高解像度画像や、音声認識用の何千時間もの音声データといった生のアセットが、処理される前に存在するステージングエリアとして機能します。
Data scientists use "schema-on-read" methodologies within data lakes. This means the structure is applied to the data only when it is read for processing, rather than when it is written to storage. This allows for immense agility; the same raw dataset can be processed in multiple ways for different predictive modeling tasks without altering the original source. Furthermore, robust data lakes often integrate with cloud computing services like Amazon S3 or Azure Blob Storage, enabling scalable, parallel processing needed for training heavy models like YOLO26.
Link to this sectionデータレイクとデータウェアハウスの違い#
よく混同されますが、データレイクはデータウェアハウスとは明確に異なります。データウェアハウスはデータを構造化されたテーブル形式で保存し、高速なSQLクエリやビジネスインテリジェンスのレポーティングに最適化されています。これは「スキーマ・オン・ライト」を使用しており、システムに入る前にETL (抽出、変換、ロード)プロセスを経てデータをクリーニングし、変換する必要があります。
対照的に、データレイクはストレージの容量と多様性に最適化されています。目的がまだ定義されていない可能性がある教師なし学習や探索的分析をサポートします。例えば、データウェアハウスは先月何個の製品が売れたかを教えてくれますが、データレイクにはAIモデルがなぜ売れたのかを理解するのに役立つ生の顧客感情ログや画像データが保持されています。
Link to this section実社会での応用#
データレイクは、自動化の限界を押し広げるさまざまな業界において不可欠なものです:
- 自動運転車: 自動運転技術の開発には、ペタバイト単位のセンサーデータの処理が必要です。自動運転車は、LiDARポイントクラウド、レーダー信号、高精細ビデオの連続的なストリームを生成します。データレイクはこの生のテレメトリを保存し、エンジニアが現実世界のシナリオを再生して、さまざまな気象条件下で歩行者や障害物を識別するための物体検出モデルをトレーニングできるようにします。
- 医療診断: 現代の医用画像解析では、病院が患者の履歴、ゲノムデータ、画像ファイル(MRI、CTスキャン)を安全なデータレイクに統合しています。研究者はこの匿名化された非構造化データにアクセスして、腫瘍検出のためのモデルをトレーニングできます。その際、多くの場合、医用画像内の関心領域を分離するためにセグメンテーション技術が利用されます。
Link to this sectionUltralyticsでデータレイクを活用する#
Ultralytics Platformを使用する場合、ユーザーは組織のデータレイクから生データのサブセットを取り出し、トレーニング用の注釈付きデータセットを作成することがよくあります。生画像を取得してラベル付けが完了すれば、最先端のモデルをトレーニングするために使用できます。
次の例では、開発者がローカルデータセットを読み込み(データレイクからのフェッチを模倣)、検出タスクのためにYOLO26モデルをトレーニングする方法を示しています。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





