YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

コンピュータビジョンにおける合成データとは?概要

Abirami Vina

5分で読めます

2025年7月4日

AIモデルの学習用合成データが、ヘルスケアやロボット工学など、さまざまな業界のコンピュータビジョンアプリケーションでどのように使用されているかをご覧ください。

データは、分析や人工知能(AI)などの分野において常に推進力となってきました。実際、データの収集、生成、使用方法は、インテリジェントシステムの未来を形作っています。たとえば、自動運転車は、道路を安全にナビゲートする方法を学習するために、道路標識から歩行者の動きまで、数百万ものラベル付けされた画像とセンサーの読み取りに依存しています。

この進歩を支える最も重要な種類のデータの1つは、特に自動運転車やセキュリティなどの分野では、画像やビデオなどの視覚データです。 

特に、機械がこの視覚情報を解釈できるようにするAIの分野は、コンピュータビジョンと呼ばれています。これにより、システムは人間が行うように視覚入力を理解および分析し、顔認識、交通標識検出、医療画像分析などのタスクをサポートします。 

しかし、大規模で高品質なビジュアルデータセットを現実世界から収集するには、時間がかかり、コストがかかり、プライバシーに関する懸念が生じることがよくあります。そのため、研究者たちは合成データを活用するという概念を積極的に模索しています。 

合成データとは、現実世界の画像やビデオを厳密に模倣した、人工的に生成されたビジュアルのことです。これは、3Dモデリング、コンピュータシミュレーション、および敵対的生成ネットワーク(GAN)のような生成AI手法を使用して作成されます。GANは、現実のデータからパターンを学習して、現実的な新しい例を生成します。

合成データは、AI開発において重要な役割を果たすと予想されており、Gartnerは2030年までに現実世界のデータよりも不可欠になると予測しています。この記事では、コンピュータビジョンのコンテキストにおける合成データとは何か、どのように生成されるか、そして現実世界のシナリオでどのように適用されているかを探ります。それでは始めましょう!

コンピュータビジョンにおける合成データとは?

多様な環境や条件下で物体を検出するVision AIモデルをトレーニングしたいとします。現実世界のデータだけに頼ることは難しく、時に限界を感じることがあります。 

一方、合成データは、さまざまな人工的に作成された条件で物体を含む適切なデータセットを作成するために使用できます。3Dモデリングやシミュレーションなどのツールを使用すると、開発者は照明、角度、物体の配置などの要素を正確に制御して画像を生成できます。これにより、実世界のデータよりもモデルトレーニングの柔軟性が向上します。

合成データは、現実世界のデータの収集が困難または不可能な場合に特に役立ちます。たとえば、走る、しゃがむ、横になるなど、幅広い姿勢の人々を認識するモデルをトレーニングするには、さまざまな設定、角度、照明条件で数千枚の写真をキャプチャする必要があります。 

一方、合成データを使用すると、開発者は正確なラベルを使用してこれらのバリエーションを簡単に生成できるため、時間と労力を節約しながら、モデルのパフォーマンスを向上させることができます。

図1. さまざまな人間のポーズと照明のバリエーションを持つ合成データセット。(出典

AIにおける合成データ vs. リアルデータ

次に、合成データと実際のデータの違いについて詳しく見ていきましょう。どちらもAIモデルのトレーニングにおいて、長所と短所があります。 

例えば、合成データは、実際のデータを収集するのが難しい場合に役立ちますが、現実で見られる細部をすべて捉えているとは限りません。同時に、実際のデータはより本物ですが、調達が難しく、ラベル付けに時間がかかり、すべての状況を網羅しているとは限りません。

合成データと実データを組み合わせることで、開発者は両方の長所を生かすことができます。このバランスは、AIモデルがより正確に学習し、さまざまなシナリオでより適切に一般化し、バイアスを減らすのに役立ちます。

図2. AIにおける合成データ対実データ。画像提供:著者。

コンピュータビジョンモデルのデータ生成に関する考察

3Dツールで仮想世界を構築することから、生成AIを使用して画像を生成することまで、コンピュータビジョンモデル用の合成トレーニングデータを作成するために使用される一般的な方法をいくつか紹介します。

  • 3Dモデリング: 開発者は3Dソフトウェアを使用して、デジタルオブジェクトとシーンを作成します。これにより、照明、カメラアングル、オブジェクトの配置などを完全に制御でき、人物、車両、環境のリアルな画像を生成するのに役立ちます。

  • シミュレーション: 物理ベースのエンジンを使用して、交通や工場環境などの現実世界の状況を再現します。シミュレーションは、ロボット工学や自動運転車などの分野で、安全にトレーニングデータを生成するのに役立ちます。

  • 敵対的生成ネットワーク: GANは、画像を生成するネットワークと、それらを評価するネットワークの2つで構成される深層学習モデルの一種です。それらは連携して、実際の例から学習することで、人間の顔や街の風景など、非常にリアルな画像を生成します。

  • プロシージャル生成: この技術は、地形、建物、テクスチャなどの複雑な視覚構造を自動的に生成するために、事前に定義されたルールまたは数理モデルを使用します。多くの場合、ゲームやシミュレーションプラットフォームで使用され、最小限の人的入力で大規模で多様なデータセットを生成できます。

  • ドメインランダム化: 合成シーンで照明、色、オブジェクトの形状などをランダムに変更できます。この手法の背後にある目標は、モデルが本当に重要なことに焦点を当てるのを助け、現実世界の環境への適応性を高めることです。
図3. データ例:(a)3Dモデルベース、(b)合成マルチオブジェクトシーン、(c)実際のデータセット画像(出典)。

合成データを用いたVision AIモデルのトレーニング

合成データを作成するために使用されるさまざまな方法について説明したところで、AIモデルのトレーニングにどのように使用されるかを順を追って説明します。 

いったん生成されると、通常、合成データは、実世界のデータと同じ方法でトレーニングパイプラインに直接統合できます。通常、オブジェクトラベル、バウンディングボックス、またはセグメンテーションマスクなど、必要なアノテーションが含まれているため、教師あり学習タスクに使用できます。教師あり学習タスクでは、モデルは手動でラベル付けする必要なく、ラベル付けされた入出力ペアから学習します。

トレーニング中、モデルは合成画像を処理して、特徴を検出し、パターンを認識し、オブジェクトを分類することを学習します。このデータを使用して、モデルの初期バージョンをゼロから構築したり、既存のデータセットを充実させたりして、モデルのパフォーマンスを向上させることができます。

多くのワークフローでは、合成データは事前学習にも使用され、実際の事例でファインチューニングを行う前に、モデルに幅広い基礎的な理解を与えます。同様に、照明条件、角度、またはまれなオブジェクトクラスなどの制御されたバリエーションを導入してデータセットを拡張し、一般化を改善し、過学習を軽減するためにも使用されます。 

合成データと実データを組み合わせることで、チームは、時間と費用のかかる手動データ収集への依存を減らしながら、幅広い条件で優れたパフォーマンスを発揮する、より堅牢なモデルをトレーニングできます。

コンピュータビジョンにおける合成データの現実世界の応用事例

合成データがより実用的でアクセスしやすくなるにつれて、さまざまな実際のVision AIユースケースで採用され始めています。使用されている最も影響力のあるコンピュータビジョンでのアプリケーションのいくつかを探ってみましょう。

自動運転車における物体検出のための合成データの利用

自動運転車に安全な運転を教えるには、まれな状況や危険な状況を含む、幅広いシナリオでモデルをトレーニングする必要があります。ただし、これらのエッジケースに関する実際のデータを収集するのは困難であり、場合によっては危険です。合成データは、モデルが困難な状況でオブジェクトを検出することを学習できるシーンを作成するのに役立ちます。また、異なるセンサー構成を模倣することもできます。これは、すべての自動運転車が同じハードウェアを使用しているわけではないため、役立ちます。

NVIDIAのDRIVE Simプラットフォームは、この良い例です。フォトリアリスティックな3Dモデル、仮想環境、センサーシミュレーションを使用して、高品質な合成データを生成します。また、1枚の画像から複数の運転アングルの画像を生成することも可能です。このような合成データを使用することで、高価な実世界でのテストの必要性を減らしつつ、モデルが効果的に学習するために必要な多様性を提供できます。

図4. 1つの画像から複数の運転ビューを作成する例(出典)。

合成データによる医療画像AIのバイアス低減

物体検出やインスタンスセグメンテーションなどのタスクをサポートするUltralytics YOLO11のようなコンピュータビジョンモデルは、医療画像アプリケーション向けにカスタムトレーニングできます。ただし、実際世界のトレーニングデータには、すべての人口統計グループの患者を適切に表現していない可能性があるため、バイアスが含まれていることがよくあります。

例えば、皮膚がんは、肌の色が濃い人には診断される頻度が低く、これらの人々に関するデータが限られています。この不均衡は、特に組織病理学、胸部X線、皮膚科学などの分野において、誤診や不平等な医療アウトカムにつながる可能性があります。

合成画像は、データにおけるこのギャップを埋めるためのステップを講じる上で役立ちます。多様な組織の異常、広範囲の肺の状態、さまざまな病変タイプの肌の色など、追加の多様な例を生成することにより、合成データは、過小評価されているグループ全体のモデルのパフォーマンスを向上させるのに役立ちます。 

研究者たちは現在、これらの目標をサポートするために、合成データセットの開発と検証に取り組んでいます。また、実際の患者記録に頼らずに、合成データを医療ツールのテストや治療戦略にどのように活用できるかを模索しており、患者のプライバシーを保護しながら研究を加速させるのに役立てています。この取り組みを通じて、合成データは、より包括的で正確、かつ倫理的な医療AIシステムの道を切り開いています。

精密農業のための合成データによる農業AIの推進

農業アプリケーション向けのVision AIシステムを構築するには、大量のラベル付きデータへのアクセスが不可欠です。しかし、作物、病気、および圃場状態の写真を収集してラベルを付ける作業は、時間と費用がかかり、天候、生育期、または特定の地域への到達困難さなどの要因によって制限されることがよくあります。 

これらの課題により、植物病の検出、作物の監視、または収量の予測などのタスクを処理するために、コンピュータビジョンモデルをトレーニングすることが困難になります。そこで、さまざまな農業環境を模倣して有用なトレーニング例を生成することにより、合成データが役立ちます。

図5。合成画像を使用した疾患検出の改善(出典)。

主なポイント

合成データの利用は、特に現実世界のデータが限られているか、入手が困難な分野におけるコンピュータビジョンシステムにとって、AIモデルのトレーニングにおける重要な前進を表しています。費用がかかり、時間がかかり、プライバシーに関する懸念を引き起こす可能性のある実際の写真やビデオだけに頼るのではなく、合成データを使用すると、要求に応じて現実的なラベル付き画像を生成できます。 

これにより、自動運転、疾病検出、作物モニタリングなどのタスク向けに、Vision AIモデルのトレーニングが容易になります。AIが進化し続けるにつれて、合成データはイノベーションを加速し、業界全体のアクセシビリティを向上させる上で、さらに大きな役割を果たすように設定されています。

GitHubリポジトリでAIの詳細を確認し、成長を続けるコミュニティに参加してください。自動運転車におけるAI農業におけるコンピュータビジョンなどのアプリケーションの影響をご覧ください。ライセンスオプションを調べて、Vision AIプロジェクトを実現しましょう。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました