合成データ
AI/MLのための合成データの力を解き放つ!データの希少性、プライバシーの問題、コストを克服しながら、モデルのトレーニングとイノベーションを促進します。
合成データとは、現実世界のデータを模倣するために人工的に生成された情報です。人工知能(AI)および機械学習(ML)の分野では、AIモデルのトレーニングのための現実世界のデータの強力な代替または補完として機能します。広範で高品質な、適切にラベル付けされた現実世界のデータセットを収集するには、コストがかかり、時間がかかり、プライバシー規制または特定のイベントの希少性により、時には非現実的になる可能性があります。合成データは、開発者が大量の完全にラベル付けされたデータをオンデマンドで生成できるようにすることで、これらの制限に対処し、堅牢なコンピュータビジョン(CV)システムの開発を加速するソリューションを提供します。
合成データはどのように生成されますか?
合成データは、いくつかの高度な手法を使用して作成でき、それぞれが異なるアプリケーションに適しています。これらの方法により、照明、オブジェクトの配置、環境条件など、生成されたデータの特性を正確に制御できます。
- 3Dモデリングとシミュレーション: 開発者は、コンピュータグラフィックスとシミュレーション環境を使用して、フォトリアリスティックな仮想世界を作成します。このアプローチは、物理エンジンが現実世界の物理現象をシミュレートできるロボティクスや自律システムで一般的です。NVIDIA DRIVE Simなどのプラットフォームは、自動運転車のトレーニング用のデータを生成するために使用されます。
- Generative Models: 敵対的生成ネットワーク(GAN)や、より最近では拡散モデルのような技術は、生成AIの中核的な構成要素です。これらのモデルは、実際のデータから基になるパターンを学習して、完全に新しい、リアルなサンプルを作成します。これは、多様な人間の顔や複雑なシーンを生成するのに特に役立ちます。
- プロシージャル生成: この手法では、アルゴリズムとルールを使用してデータを自動的に作成します。ビデオゲーム開発で大規模な環境を生成するために広く使用されており、最小限の手作業で多様なトレーニングデータを生成するように適合させることができます。
- ドメインランダム化: シミュレーションのパラメータ(照明、テクスチャ、オブジェクトの位置など)を意図的に変化させる手法。これにより、トレーニングされたモデルは、本質的な特徴に焦点を当てることで、シミュレーション環境から現実世界の環境への汎化を向上させることができます。Tobinらの先駆的な論文は、ロボット操作に対するその有効性を示しました。
実際のアプリケーション
合成データの使用は多くの業界に拡大しており、現実世界のデータがボトルネックになっている分野でブレークスルーを可能にしています。
- 自動運転車: 自動運転車のトレーニングには、事故や異常気象のようなまれで危険なシナリオを含む、数百万マイルの運転からのデータが必要です。現実世界でこのデータを収集することは、安全ではなく、非現実的です。合成データを使用すると、開発者はこれらのエッジケースを安全で制御された環境でシミュレートし、物体検出とナビゲーションシステムの堅牢性を向上させることができます。Waymoのような企業は、テストと検証のためにシミュレーションに大きく依存しています。
- 医療におけるAI: 医用画像解析では、患者データは非常に機密性が高く、HIPAAなどの厳格なプライバシー法によって保護されています。さらに、まれな疾患のデータは不足しています。合成データを使用して、データプライバシーを損なうことなく、現実的な医療スキャン(CTやMRIなど)を生成できます。これにより、より大きく、よりバランスの取れたデータセットを作成し、AIバイアスを軽減し、皮膚がん検出などの状態に対する診断モデルの精度を向上させることができます。
合成データ vs. データ拡張
合成データとデータ拡張はどちらもデータセットの強化を目的としていますが、動作が異なります。
- データ拡張: この手法では、既存の実世界の画像に対して、回転、トリミング、または色のシフトなどの変換を適用します。元のデータの修正版を作成することで、トレーニングセットの多様性を高めます。Ultralytics YOLOモデルで使用されている拡張機能の詳細をご覧ください。
- 合成データ: これは、シミュレーションまたは生成モデルを使用して、ゼロから完全に新しいデータを作成することを含みます。既存のデータポイントから派生したものではなく、元のデータセットに完全に存在しないシナリオを表すことができます。
まとめると、データ拡張は既存のデータを変化させ、合成データは新しいデータを作成します。どちらも強力なテクニックであり、深層学習モデルを高度にロバストかつ正確に構築するために組み合わせることができ、Ultralytics HUBのようなプラットフォームを通じて管理できます。