AI/MLのための合成データの力を解き放つ!データの希少性、プライバシーの問題、コストを克服しながら、モデルのトレーニングとイノベーションを促進します。
合成データとは、現実世界のデータの統計的特性やパターンを模倣して人工的に生成された情報を指す。 人工的に生成された情報のことである。機械学習(ML)や 機械学習(ML)や 機械学習(ML)やコンピュータ・ビジョン(CV)の分野では、合成データ 高性能モデルを開発するための強力なリソースとなる。 の分野で、高性能モデルを開発するための強力なリソースとなる。物理的な事象から収集された従来のデータセットとは異なり、合成データはプログラムまたはシミュレートされたものである。 シミュレートされるため、開発者は完璧にラベル付けされた膨大なトレーニングデータ 学習データをオンデマンドで作成することができます。業界アナリストの ガートナーの予測 ガートナーの業界アナリストは、2030年までにAIモデルにおいて合成データが実データを凌駕し、インテリジェント・システムの構築方法に大きな変化をもたらすと予測している。 と予測している。
高品質な合成データセットの作成には、古典的なコンピューターグラフィックスから最新のジェネレーティブAI から最新のジェネレーティブAIまで、さまざまな洗練された技術が必要です。これらの手法は 人工データは、モデルが新しい未知のシナリオにうまく一般化できるよう、十分に多様であることを保証する。
合成データは、データ収集がボトルネックとなっている業界に革命をもたらしている。
合成データとデータ補強を区別することは重要である。 データ拡張と区別することが重要である。 データセットを強化するために使用される。
合成データセットは実際のデータセットと同じようにフォーマットされ、通常は画像とそれに対応する注釈ファイルが含まれている。あなたは のような最先端のモデルをシームレスに訓練することができる。 YOLO11のような のような最先端のモデルをシームレスに学習させることができます。
次の例は、コードを使って簡単な合成画像を生成し、それに対して
その ultralytics パッケージで提供される。
import cv2
import numpy as np
from ultralytics import YOLO
# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)
# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)
# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")

