Yolo 深圳
深セン
今すぐ参加
用語集

ビッグデータ

AI/MLにおけるビッグデータのパワーをご覧ください。大規模データセットが機械学習をどのように促進するか、その処理ツール、そして実際の応用事例について解説します。

ビッグデータとは、従来のデータベース管理ツールの処理能力を超える、非常に大きく、複雑で、急速に成長するデータセットを指す。 従来のデータベース管理ツールの処理能力を超えている。ビッグデータは「5つの対」によって特徴付けられる:ボリューム(データ量の多さ Volume(データの膨大な量)、Velocity(データの生成速度)、Variety(データの種類の多様性)、Veracity(品質と信頼性)、Value(価値)である。 Valacity(品質と信頼性)、Value(導き出される洞察)である。人工知能(AI)の領域では 人工知能(AI)の領域では、ビッグデータ は、最新の機械学習(ML)アルゴリズム 機械学習(ML)アルゴリズムに力を与える基本的な資源となる。 パターンを特定し、予測を行い、時間の経過とともにパフォーマンスを向上させる。

ディープラーニングにおけるビッグデータの重要な役割

ディープラーニング(DL)の復活は、ビッグデータの利用可能性と直結している。 ビッグデータの利用可能性と直結している。ニューラルネットワーク、特に 特に畳み込みニューラルネットワーク(CNN)は、効果的に汎化するために大量のラベル付き情報を必要とする。例えば 例えば Ultralytics YOLO11のような最先端のモデルは、物体検出タスク ような広範なベンチマークデータセット のような広範なベンチマークデータセット COCOImageNet.これらのデータセットには数百万枚の画像が含まれている、 これらのデータセットには数百万枚の画像が含まれており、様々な条件下で物体を認識するモデルに必要な多様性を提供している。

このような大量の情報を処理するには、多くの場合、クラウド・コンピューティング・クラスターや専用ハードウェアなどのスケーラブルなインフラストラクチャが必要になります。 クラウド・コンピューティング・クラスター NVIDIA データセンターGPUのような特殊なハードウェアが必要になります。このハードウェアは このハードウェアは、テラバイトやペタバイトのデータで複雑なモデルを学習するのに必要な数学的演算を高速化します。

開発者がモデルのトレーニングのためにデータをどのように扱うかを説明するために、以下のPython 例では、事前にトレーニングされたYOLO11モデルをロードし、次のように小さなデータセットのサブセットでトレーニングすることを示します。 を使用して、事前に学習されたYOLO11 モデルをロードし、小さなデータセットのサブセットでそれを学習します。 ultralytics パッケージで提供される:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# COCO8 is a tiny dataset included for quick demonstration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Display the results object details
print(results)

AIの実世界での応用

ビッグデータは、AIシステムが現実世界の複雑な問題を解決できるようにすることで、産業を変革する:

  • 自律走行車 自動運転車は、LiDAR、レーダー、カメラから膨大なデータストリームを生成する。例えば テスラのような企業は、歩行者や車線標識、障害物をdetect する知覚システムの訓練に車両データを活用している、 レーンマーキングや障害物を検知する知覚システムのトレーニングに活用している。このようなデータ収集とトレーニングの継続的なループは、より安全な車載ソリューションの実現に不可欠である。 車載ソリューションにおけるAI
  • 医療診断医療診断 医療におけるAIでは、ビッグデータは匿名化された患者記録や医療画像の膨大なライブラリを包含する。 匿名化された患者記録や医療画像の膨大なライブラリーがある。研究者は NIH Imaging Data Commonsのようなリポジトリを使って、何千ものMRIやCTスキャン画像でモデルをトレーニングしている。 のMRIやCTスキャンでモデルを訓練している。これらのモデルは、放射線科医が腫瘍のような病態を、手作業によるレビューよりも迅速かつ正確に特定できるよう支援する。 手作業によるレビューよりも正確である

ビッグデータと関連概念の比較

ビッグデータを理解するには、データエコシステムにおける密接に関連する用語と区別する必要がある:

  • データマイニングビッグデータが資産そのものを指すのに対し データマイニングとは、データセットを探索し、パターンや関係性を発見するプロセスである。 関係性を発見するプロセスである。Apache Spark分析エンジンのようなツールは、ビッグデータを効率的にマイニングするためによく使用される。 ビッグデータを効率的にマイニングするために使用されます。
  • データレイクデータレイクとは データレイクとは、生データを必要な時までそのままの形式で保管するために設計されたストレージ・アーキテクチャである。これはビッグデータとは対照的である。 このようなアーキテクチャに格納されるデータの特性(量、速度など)を表す。最新の 最近のソリューションでは、Amazon S3や同様のサービスを活用して、このようなレイクを構築することが多い。 湖のようなものだ。
  • データ分析これは データを分析して結論を導き出す、より広範な学問分野である。ビッグデータに適用される場合、将来の傾向を予測するための高度な 過去のパターンに基づいて将来の傾向を予測する高度な予測モデリング 過去のパターンに基づく。

ビッグデータを効果的に活用するには、以下のような注意も必要である。 GDPRのような規制を遵守するために 遵守するためのデータプライバシーとガバナンスへの厳格な配慮も必要となる。世界のデータ量が増加し続ける中、ビッグデータとAIの相乗効果は、技術革新の主要な原動力であり続けるだろう。 とAIの相乗効果は、技術革新の主要な原動力であり続けるだろう。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加