Yolo 深圳
深セン
今すぐ参加
用語集

合成データ

合成データがAIと機械学習をどのように支えるかを発見しましょう。Ultralytics 向けの高品質データセットを生成し、モデルの精度を今すぐ向上させる方法を学びましょう。

合成データとは、現実世界のデータの統計的特性、パターン、構造的特性を模倣して人工的に生成された情報である。急速に進化する人工知能(AI) と機械学習(ML)の分野において、このデータは、本物のデータを収集することが高価、時間のかかる、またはプライバシー規制によって制限される場合に、重要な資源として機能する。 現実世界の事象から収集される有機的データとは異なり、合成データはコンピューターシミュレーションや高度な生成モデルといった技術を用いてアルゴリズム的に生成されます。ガートナーの業界アナリストは、2030年までに合成データがAIモデルにおいて実データを凌駕し、知能システムの構築と展開方法を根本的に変革すると予測しています

AI開発における合成データの役割

合成データセットを利用する主な目的は、従来のデータ収集とアノテーションに内在する限界を克服することにある。 堅牢なコンピュータビジョン(CV)モデルを訓練するには、多様なシナリオを含む膨大なデータセットが必要となる。 希少疾患の診断や危険なエッジケースの交通事故など、実世界のデータが不足している場合、合成データがそのギャップを埋める。

このデータを生成することで、開発者は要求に応じて完璧にラベル付けされた トレーニングデータを作成できます。これには、物体検出用の正確な 境界ボックスや セマンティックセグメンテーション用のピクセル単位の正確なマスクが含まれ、 手動ラベリングプロセスで頻繁に見られる人的ミスを排除します。さらに、 エンジニアが意図的にデータセットのバランスを調整できるようにすることで、 過小評価されているグループや環境条件に対するAIのバイアスに対処し、 より公平なモデル性能を確保します。

実際のアプリケーション

合成データは、データプライバシー、安全性、スケーラビリティが最優先される産業に革命をもたらしている。

  • 自動運転シミュレーション:テスト 物理世界のみで自動運転車両をテストすることはリスクが高く、地理的に制限される。企業はNVIDIA などのフォトリアリスティックなシミュレーターを活用し、知覚システムを訓練する。これらのシミュレーターは数十億マイルの仮想走行距離を生成し、AIを危険な天候、予測不能な歩行者行動、複雑な都市レイアウトに曝す。これらは現実世界で一貫して再現することが困難な要素である。
  • 医療と医療画像: HIPAAやGDPRなどの患者プライバシー保護法は、 医療記録の共有を厳格に規制しています。合成データにより、 X線やMRIスキャンなどの病理学的特徴を保持しつつ、 個人を特定できる情報を含まない現実的な医療画像分析データセットの作成が可能となります。これにより、 研究者は患者の機密性を損なうことなく、 腫瘍検出モデルの共同トレーニングを実施できます。

ビジョンAI向け合成データの生成

高品質な合成データの生成には、主に2つのアプローチが用いられる:シミュレーションエンジンと 生成AIであるUnity Engineのようなシミュレーションエンジンは、物理ベースの照明やテクスチャを用いたシーンを3Dグラフィックスでレンダリングする。一方、GAN(Generative Adversarial Networks) や拡散モデルなどの生成モデルは、実データの分布を学習し、新たなフォトリアリスティックな例を合成する。

合成データセットが生成されると、高性能モデルの訓練に使用できます。以下のPython 、 合成データで訓練された可能性のあるモデルを、 ultralytics パッケージを使用して 画像に対して推論を実行する。

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

合成データ vs. データ拡張

合成データとデータ拡張を区別することは有益である。 両手法ともデータセットを拡大することを目的とするが、 その機能は異なるためである。

  • データ拡張とは、反転、回転、トリミング、色調整などの変換を既存の実世界の画像に適用し、わずかなバリエーションを生成する手法である。これは元のデータソースに依存する。
  • 合成データとは、アルゴリズムやシミュレーションを用いて、全く新しいデータインスタンスを一から作成する手法である。出力ごとに必ずしも元の画像を必要とせず、カメラで捉えられたことのないシナリオの生成を可能にする。

Ultralytics 、多くの場合両方のアプローチを組み合わせています。 合成データを用いてデータセットの欠落部分を補完し、トレーニング中にデータ拡張を適用することで、 YOLO26のようなモデルの頑健性を最大化します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加