Yolo 深圳
深セン
今すぐ参加
用語集

合成データ

AI/MLのための合成データの力を解き放つ!データの希少性、プライバシーの問題、コストを克服しながら、モデルのトレーニングとイノベーションを促進します。

合成データとは、現実世界のデータの統計的特性やパターンを模倣して人工的に生成された情報を指す。 人工的に生成された情報のことである。機械学習(ML)や 機械学習(ML)や 機械学習(ML)やコンピュータ・ビジョン(CV)の分野では、合成データ 高性能モデルを開発するための強力なリソースとなる。 の分野で、高性能モデルを開発するための強力なリソースとなる。物理的な事象から収集された従来のデータセットとは異なり、合成データはプログラムまたはシミュレートされたものである。 シミュレートされるため、開発者は完璧にラベル付けされた膨大なトレーニングデータ 学習データをオンデマンドで作成することができます。業界アナリストの ガートナーの予測 ガートナーの業界アナリストは、2030年までにAIモデルにおいて合成データが実データを凌駕し、インテリジェント・システムの構築方法に大きな変化をもたらすと予測している。 と予測している。

合成データの生成方法

高品質な合成データセットの作成には、古典的なコンピューターグラフィックスから最新のジェネレーティブAI から最新のジェネレーティブAIまで、さまざまな洗練された技術が必要です。これらの手法は 人工データは、モデルが新しい未知のシナリオにうまく一般化できるよう、十分に多様であることを保証する。

  • 3Dシミュレーションとレンダリング:ゲームエンジン Unityおよび Unreal Engine などのゲームエンジンでは フォトリアリスティックな仮想環境を構築できます。ここでは、物理エンジンが光、重力、およびオブジェクトの相互作用をシミュレートして、本物そっくりの画像を生成します。 本物そっくりの画像を生成します。これは多くの場合 3D オブジェクト検出ワークフローと組み合わせて使用されます。
  • 生成モデル:次のような高度なアルゴリズム 生成逆説的ネットワーク(GAN)拡散モデルなどの高度なアルゴリズムは 無限に新しいバリエーションを生成する。次のようなツールがある。 Stable Diffusionのようなツールは、これらのモデルがいかに複雑な視覚データをゼロから作成できるかを例証している。 スクラッチから
  • ドメイン無作為化:特定のシミュレートされた外観へのオーバーフィッティングを防ぐために 特定のシミュレートされたルックへのオーバーフィッティングを防ぐために、開発者はドメインランダム化を使用する。 ドメインランダム化を使用します。このテクニックは 照明、テクスチャ、カメラアングルなどのパラメータを乱暴に変化させ、AIに物体の本質的な特徴を学習させる。 を学習させる。

実際のアプリケーション

合成データは、データ収集がボトルネックとなっている業界に革命をもたらしている。

  • 自律走行車:自動運転車のトレーニングには、歩行者の飛び出しや悪天候のような稀に起こる危険な出来事も含め、何百万回もの運転シナリオを経験させる必要がある。 歩行者の飛び出しや悪天候など、稀に起こる危険な事象を含む。 このデータを物理的に収集するのは危険だ。ウェイモのような企業は シミュレーションを活用して 自律走行車のテストにシミュレーションを活用している。 仮想走行距離をテストし、人命を危険にさらすことなく 人命を危険にさらすことなく
  • ヘルスケアとメディカルイメージング患者記録は、以下のような厳しい規制によって保護されています。 HIPAA。実際のレントゲンやMRIスキャンを研究用に共有することは、しばしば法的に複雑です。 法的に複雑です。合成データにより、研究者はリアルな 医療画像解析データセットを生成することができる。 個人を特定できる情報(PII)を含むことなく、病気の統計的マーカーを保持する。 個人を特定できる情報(PII)を含まずに。これにより データのプライバシーを守りながら、診断ツールを進歩させることができます。

合成データ vs. データ拡張

合成データとデータ補強を区別することは重要である。 データ拡張と区別することが重要である。 データセットを強化するために使用される。

  • データ補強は既存の実世界の画像を取り込み、それらを反転、回転、カラーバランスの変更などの加工を施し、バリエーションを増やす、 したり、カラーバランスを変えたりして、バリエーションを増やします。これについては YOLO データ拡張ガイドをご覧ください。
  • 合成データはゼロから作成される。特定のソース・イメージを修正するのではなく、まったく新しいインスタンスを生成する。 カメラで撮影されたことのないシナリオを作成することができる。 カメラで撮影されたことのないシナリオを作成することができます。

Ultralytics YOLO統合

合成データセットは実際のデータセットと同じようにフォーマットされ、通常は画像とそれに対応する注釈ファイルが含まれている。あなたは のような最先端のモデルをシームレスに訓練することができる。 YOLO11のような のような最先端のモデルをシームレスに学習させることができます。

次の例は、コードを使って簡単な合成画像を生成し、それに対して その ultralytics パッケージで提供される。

import cv2
import numpy as np
from ultralytics import YOLO

# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)

# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)

# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加