用語集

合成データ

AI/MLのための合成データのパワーを解き放つ!データの不足、プライバシーの問題、コストを克服し、モデルのトレーニングとイノベーションを促進します。

合成データとは、実世界のデータを模倣して人工的に生成された情報のことである。人工知能(AI)機械学習(ML)の分野では、AIモデルを学習させるための実世界データの強力な代替または補足の役割を果たす。広範かつ高品質で、適切にラベル付けされた実世界のデータセットを収集することは、コストと時間がかかり、プライバシー規制や特定の事象の希少性のために現実的でない場合もある。合成データは、開発者がオンデマンドで完璧にラベル付けされた膨大な量のデータを生成できるようにすることで、これらの制限に対処し、堅牢なコンピュータビジョン(CV)システムの開発を加速するソリューションを提供します。

合成データはどのようにして作られるのか?

合成データは、それぞれ異なる用途に適したいくつかの高度な手法を用いて作成することができます。これらの手法では、生成されたデータの特性(照明、オブジェクトの配置、環境条件など)を正確に制御することができます。

  • 3Dモデリングとシミュレーション:開発者は、コンピュータグラフィックスとシミュレーション環境を使用して、写実的な仮想世界を作成します。このアプローチは、物理エンジンが現実世界の物理をシミュレートできるロボット工学や自律システムでは一般的です。NVIDIA DRIVE Simのようなプラットフォームは、自動運転車のトレーニング用データの生成に使用されています。
  • 生成モデルGenerative Adversarial Networks(GAN)や、最近では拡散モデルのような技術は、ジェネレーティブAIの中核をなす要素である。これらのモデルは、実際のデータから基礎となるパターンを学習し、まったく新しい現実的なサンプルを作成する。これは特に、多様な人間の顔や複雑なシーンを生成するのに役立つ。
  • 手続き的生成:アルゴリズムとルールを使って自動的にデータを作成する方法。大規模な環境を生成するためにビデオゲーム開発で広く使用されており、最小限の手作業で多様なトレーニングデータを生成するために適応させることができる。
  • 領域のランダム化:シミュレーションのパラメータ(照明、テクスチャ、オブジェクトの位置など)を意図的に変化させる手法。これにより、学習されたモデルは、本質的な特徴に集中せざるを得なくなり、シミュレーション環境から実環境への汎化が向上する。Tobinらによる代表的な論文では、ロボット操作におけるこの手法の有効性が実証されている。

実世界での応用

合成データの利用は多くの産業で拡大しており、実世界のデータがボトルネックとなっていたブレークスルーを可能にしている。

  1. 自律走行車:自動運転車のトレーニングには、事故や異常気象のような稀で危険なシナリオを含む、数百万マイルの走行データが必要だ。このようなデータを実世界で収集するのは危険であり、現実的ではありません。合成データにより、開発者は安全で制御された環境でこれらのエッジケースをシミュレートし、物体検知やナビゲーションシステムの堅牢性を向上させることができる。Waymoのような企業は、テストと検証のためにシミュレーションに大きく依存している。
  2. ヘルスケアにおけるAI:医療画像解析では、患者データは非常に機密性が高く、HIPAAなどの厳格なプライバシー法で保護されている。さらに、希少疾患のデータは乏しい。合成データを使用することで、データのプライバシーを損なうことなく、現実的な医療スキャン(CTやMRIなど)を生成することができます。これは、より大規模でバランスのとれたデータセットを作成し、AIのバイアスを減らし、皮膚がんの検出のような状態の診断モデルの精度を向上させるのに役立ちます。

合成データとデータ補強の比較

合成データとデータ補強はどちらもデータセットを強化することを目的としているが、その運用方法は異なる。

  • データの補強:この手法では、既存の実世界の画像に回転、切り抜き、カラーシフトなどの変換を加える。元のデータを修正したものを作成することで、トレーニングセットの多様性を高めます。Ultralytics YOLOモデルで使用されているオーグメンテーションの詳細については、こちらをご覧ください。
  • 合成データ:シミュレーションや生成モデルを用いて、ゼロからまったく新しいデータを作成する。既存のデータポイントから派生したものではなく、元のデータセットには全くないシナリオを表現することができる。

要約すると、データ増強は既存のデータを変化させ、合成データは新規データを作成する。どちらも強力な手法であり、これらを組み合わせることで、Ultralytics HUBのようなプラットフォームを通じて管理される、非常にロバストで正確なディープラーニング・モデルを構築することができる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク