YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

合成データ

合成データがAIと機械学習をどのように強化するかをご覧ください。今日、モデルの精度を向上させるためにUltralytics YOLO26向けに高品質なデータセットを生成する方法を学びましょう。

合成データとは、現実世界のデータの統計的特性、パターン、および構造的特徴を模倣して人工的に生成された情報です。急速に進化する 人工知能 (AI) および 機械学習 (ML) の分野において、このデータは、実際のデータを収集することが高価、時間のかかる、またはプライバシー規制によって制限される場合に、重要なリソースとして機能します。現実世界のイベントから収集された有機的なデータとは異なり、合成データはコンピューターシミュレーションや高度な生成モデルなどの技術を使用してアルゴリズム的に作成されます。Gartner の業界アナリストは、2030年までに合成データがAIモデルにおける実際のデータを凌駕し、インテリジェントシステムの構築と展開方法を根本的に変革すると予測しています。

AI開発における合成データの役割

合成データセットを利用する主な推進力は、従来のデータ収集とアノテーションに内在する限界を克服することです。堅牢なコンピュータービジョン (CV)モデルのトレーニングには、多様なシナリオを含む大規模なデータセットがしばしば必要です。希少疾患の診断や危険な特殊な交通事故など、現実世界のデータが不足している場合、合成データがそのギャップを埋めます。

このデータを生成することで、開発者はオンデマンドで完璧にラベル付けされたトレーニングデータを作成できます。これには、物体検出のための正確なバウンディングボックスや、セマンティックセグメンテーションのためのピクセルパーフェクトなマスクが含まれ、手動ラベリングプロセスでよく見られる人的エラーを排除します。さらに、エンジニアが意図的に過小評価されているグループや環境条件を含むデータセットのバランスを取ることを可能にすることで、AIにおけるバイアスに対処し、より公平なモデルパフォーマンスを保証します。

実際のアプリケーション

合成データは、データのプライバシー、安全性、スケーラビリティが最重要視される産業に革命をもたらしています。

  • 自動運転シミュレーション: 自律走行車を物理世界だけでテストすることは、危険であり地理的に制限されます。企業は、知覚システムをトレーニングするために、NVIDIA Omniverseのようなフォトリアリスティックなシミュレーターを利用します。これらのシミュレーターは数十億マイルの仮想走行を生成し、AIを危険な天候、不規則な歩行者の行動、現実世界で一貫して捉えるのが難しい複雑な都市レイアウトにさらします。
  • ヘルスケアと医用画像: HIPAAGDPRのような患者プライバシー法は、医療記録の共有を厳しく規制しています。合成データは、X線やMRIスキャンなどの現実的な医用画像解析データセットの作成を可能にし、病理学的マーカーを保持しつつ、個人を特定できる情報を含みません。これにより、研究者は患者の機密性を損なうことなく、共同で腫瘍検出モデルをトレーニングできます。

Vision AIのための合成データ生成

高品質な合成データの作成には、主に2つのアプローチがあります。シミュレーションエンジン生成AIです。Unity Engineのようなシミュレーションエンジンは、3Dグラフィックスを使用して、物理ベースのライティングとテクスチャでシーンをレンダリングします。あるいは、敵対的生成ネットワーク(GANs)拡散モデルのような生成モデルは、実際のデータの分布を学習して、新しいフォトリアリスティックな例を合成します。

合成データセットが生成されると、高性能モデルのトレーニングに使用できます。次のpythonの例は、合成データでトレーニングされた可能性のあるモデルを、以下を使用してロードする方法を示しています。 ultralytics 画像に対して推論を実行するためのパッケージ。

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

合成データ vs. データ拡張

合成データをデータ拡張と区別することは有用です。どちらの技術もデータセットの拡張を目的としていますが、機能が異なります。

  • データ拡張は、既存の実世界の画像に、反転、回転、クロップ、色調整などの変換を適用して、わずかなバリエーションを作成することを含みます。これは元のデータソースに依存します。
  • 合成データは、アルゴリズムやシミュレーションを用いて、完全に新しいデータインスタンスをゼロから作成することを含みます。すべての出力に対して厳密に元の画像を必要とせず、カメラで撮影されたことのないシナリオの生成を可能にします。

Ultralytics Platformにおける現代のワークフローは、しばしば両方のアプローチを組み合わせます。データセットのギャップを埋めるために合成データを使用し、YOLO26のようなモデルの堅牢性を最大化するために、トレーニング中にデータ拡張を適用します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。