アナリティクスや人工知能(AI)などの分野では、データは常に原動力となってきた。実際、データを収集、生成、利用する方法が、インテリジェント・システムの未来を形作っている。例えば、自動運転車は、道路標識から歩行者の動きに至るまで、何百万ものラベル付けされた画像やセンサーの読み取りに依存し、道路を安全にナビゲートする方法を学習している。
特に自律走行車やセキュリティのような分野で、この進歩の原動力となる最も重要なデータの種類のひとつが、画像やビデオのような視覚データである。
特に、機械がこの視覚情報を解釈できるようにするAIの分野は、コンピューター・ビジョンと呼ばれている。コンピュータ・ビジョンは、システムが人間と同じように視覚的入力を理解し分析するのを助け、顔認識、交通標識の検出、医療画像分析などのタスクをサポートする。
しかし、実世界から大規模で高品質なビジュアルデータセットを収集するには、時間とコストがかかり、プライバシーに関する懸念が生じることも多い。そのため、研究者たちは合成データを活用するというコンセプトを積極的に模索している。
合成データとは、現実世界の画像や動画を忠実に模倣して人工的に生成されたビジュアルのこと。3Dモデリング、コンピューターシミュレーション、Generative Adversarial Networks(GAN)などの生成的AI手法などの技術を用いて作成され、実際のデータからパターンを学習してリアルな新しい例を生成する。
ガートナー社は、2030年までに合成データは実世界のデータよりも重要な役割を果たすようになると予測している。この記事では、コンピュータ・ビジョンの文脈における合成データとは何か、どのように生成されるのか、そして実世界のシナリオでどのように応用されているのかを探ります。それでは始めましょう!
様々な環境や条件下で物体を検出するビジョンAIモデルを学習させたいとします。実世界のデータだけに頼ることは難しく、時には限界を感じることもあります。
一方、合成データは、人工的に作られたさまざまな条件のオブジェクトを含む、適切なデータセットを作成するために使用することができます。3Dモデリングやシミュレーションのようなツールを使用することで、開発者は照明、角度、オブジェクトの配置などの要素を正確に制御して画像を生成することができる。その結果、実世界のデータよりも柔軟なモデル学習が可能になる。
合成データは、実世界のデータを収集することが困難または不可能な場合に特に役立ちます。例えば、走っている、しゃがんでいる、横になっているなど、さまざまなポーズをとる人物を認識するモデルをトレーニングするには、さまざまな設定、角度、照明条件で何千枚もの写真を撮影する必要がある。
一方、合成データを使えば、開発者は正確なラベルを持つこれらのバリエーションを簡単に生成することができ、モデルのパフォーマンスを向上させながら、時間と労力を節約することができる。
次に、合成データと実データの違いを詳しく見てみよう。AIモデルのトレーニングに関しては、どちらにも長所と短所がある。
例えば、合成データは実データを収集するのが困難な場合に有用だが、実生活で見られるような細部まで把握できない可能性がある。同時に、実データはより信憑性が高いが、入手が困難であったり、ラベル付けに時間がかかったり、あらゆる状況をカバーできない可能性がある。
合成データと実データを組み合わせることで、開発者は両方の長所を得ることができる。このバランスは、AIモデルがより正確に学習し、異なるシナリオにわたってより良く一般化し、バイアスを減らすのに役立ちます。
3Dツールを使った仮想世界の構築から、ジェネレーティブAIを使った画像の生成まで、コンピュータ・ビジョン・モデルの合成トレーニング・データの作成によく使われる方法をいくつか紹介しよう:
合成データの作成に使用されるさまざまな方法について説明したので、AIモデルのトレーニングにどのように使用されるかを見ていこう。
一度生成された合成データは、通常、実世界のデータと同じように学習パイプラインに直接統合することができる。通常、合成データには、オブジェクトラベル、バウンディングボックス、セグメンテーションマスクなどの必要なアノテーションが含まれているため、手作業によるラベリングを必要とせず、ラベル付けされた入出力ペアからモデルが学習する教師あり学習タスクに使用できる。
学習中、モデルは合成画像を処理して、特徴の検出、パターンの認識、オブジェクトの分類を学習する。このデータは、モデルの初期バージョンをゼロから構築したり、既存のデータセットを充実させるために使用することができ、モデルの性能向上に役立ちます。
多くのワークフローでは、合成データはプリトレーニングにも使用され、実世界の例で微調整する前に、モデルに幅広い基礎的な理解を与えます。同様に、汎化を改善し、オーバーフィッティングを減らすために、異なる照明条件、角度、または稀なオブジェクトクラスのような制御されたバリエーションを導入することで、データセットを拡張するために使用されます。
合成データと実データを組み合わせることで、チームは、時間とコストのかかる手作業によるデータ収集への依存を減らしながら、さまざまな条件下で優れた性能を発揮する、よりロバストなモデルをトレーニングすることができる。
合成データがより実用的で利用しやすくなるにつれて、実世界の様々なビジョンAIのユースケースで採用され始めています。合成データが使用されているコンピュータ・ビジョンの最もインパクトのあるアプリケーションをいくつか見てみましょう。
自動運転車に安全運転を教えるには、稀な状況や危険な状況を含む幅広いシナリオでモデルをトレーニングする必要がある。しかし、このようなエッジケースのために実世界のデータを収集することは困難であり、時には安全でない場合もあります。合成データは、モデルが困難な状況で物体を検出することを学習できるシーンを作成するのに役立ちます。また、すべての自動運転車が同じハードウェアを使用しているわけではないため、異なるセンサー構成を模倣することもできます。
NVIDIAのDRIVE Simプラットフォームはその好例です。フォトリアリスティックな3Dモデル、仮想環境、センサーシミュレーションを使用して、高品質の合成データを作成します。また、1つの画像から複数の走行角度の画像を生成することもできます。 このような合成データを使用することで、モデルに効果的な学習に必要な多様性を与えながら、高価な実車テストの必要性を減らすことができます。
Ultralytics YOLO11のような、物体検出やインスタンス分割などのタスクをサポートするコンピュータビジョンモデルは、医療画像アプリケーション用にカスタムトレーニングすることができる。しかし、実世界のトレーニングデータにはバイアスが含まれていることが多く、すべての人口統計学的グループの患者を適切に表しているとは限りません。
例えば、皮膚がんは、肌の色が濃い人ほど診断される頻度が低く、そのような集団のデータは限られている。この不均衡は、特に病理組織学、胸部X線検査、皮膚科学などの分野において、誤診や不平等な医療結果の一因となる可能性がある。
合成画像は、このデータギャップを埋めるための一歩を踏み出す役割を果たすことができる。様々な組織異常、広範な肺の状態、異なる病変タイプを持つ肌色など、追加的で多様な例を生成することで、合成データは、十分に代表されていないグループ全体のモデル性能を向上させるのに役立つ。
研究者たちは現在、これらの目標をサポートするための合成データセットの開発と検証に取り組んでいる。また、実際の患者の記録に頼ることなく、合成データを医療ツールや治療戦略のテストにどのように利用できるかを模索しており、患者のプライバシーを保護しながら研究を加速させるのに役立っている。このような研究を通じて、合成データは、より包括的で、正確で、倫理的な医療AIシステムへの道を開きつつある。
農業アプリケーション用のビジョンAIシステムの構築は、大量のラベル付きデータへのアクセスに依存している。しかし、作物、病気、畑の状態の写真を収集し、ラベルを付けるには、時間がかかり、コストがかかり、天候、生育期、特定の地域に到達するのが難しいなどの理由で制限されることが多い。
このような課題により、植物病害の検出、作物のモニタリング、収穫量の予測などのタスクを処理するためのコンピューター・ビジョン・モデルのトレーニングが困難になっている。そこで役立つのが合成データである。さまざまな農業環境を模倣することで、有用な学習例を生成することができる。
合成データの利用は、AIモデルの学習において重要な一歩を踏み出すものであり、特に実世界のデータが限られていたり、入手が困難であったりする分野のコンピュータビジョンシステムにとって重要である。高価で、時間がかかり、プライバシーの問題を引き起こす可能性のある実際の写真やビデオだけに頼るのではなく、合成データを使用することで、現実的でラベル付けされた画像をオンデマンドで生成することができます。
これにより、自律走行、病気検出、作物モニタリングなどのタスクのためのビジョンAIモデルのトレーニングが容易になる。AIが進化し続ける中、合成データはイノベーションを加速させ、業界全体のアクセシビリティを向上させる上で、さらに大きな役割を果たすことになるだろう。
GitHubリポジトリでAIについて学び、成長するコミュニティに参加しましょう。自律走行車における AIや農業におけるコンピュータビジョンのようなアプリケーションのインパクトを発見してください。私たちのライセンスオプションを検討し、あなたのVision AIプロジェクトを実現しましょう。