グリーンチェック
クリップボードにコピーされたリンク

RAGとコンピュータービジョンによるAIアプリケーションの強化

検索拡張生成 (RAG) とコンピューター ビジョンを組み合わせることで、AI システムがドキュメント、ビジュアル、複雑な現実世界のコンテンツを解釈できるようになる仕組みについて説明します。

AIツールを使うChatGPT Geminiは、情報を見つけるための一般的な手段になりつつあります。メッセージの下書き、文書の要約、質問への回答など、これらのツールは多くの場合、より迅速で簡単な解決策を提供します。 

しかし、大規模言語モデル(LLM)を何度か使ったことがあるなら、その限界に気付いたことがあるでしょう。非常に具体的なクエリや時間的制約のあるクエリを入力すると、LLMは間違った答えを、しばしば自信を持って返してしまうことがあります。

これは、スタンドアロンのLLMが学習に使用したデータのみに依存しているために発生します。そのデータセット以外の最新のアップデートや専門知識にアクセスできないため、回答が古くなったり不正確になったりする可能性があります。

この問題を解決するために、研究者たちは検索拡張生成(RAG)と呼ばれる手法を開発しました。RAGは、クエリに応答する際に信頼できる情報源から最新の関連情報を取得できるようにすることで、言語モデルを強化します。

この記事では、RAGの仕組みと、関連性の高い最新情報を取得することでAIツールをどのように強化するかを探ります。また、視覚データの解釈に重点を置いた人工知能の分野であるコンピュータービジョンと連携して、システムがテキストだけでなく画像、レイアウト、視覚的に複雑なドキュメントを理解できるようにする方法についても考察します。

検索拡張生成(RAG)を理解する

AIチャットボットに質問をするとき、私たちは通常、単に聞き取りやすい回答以上のものを期待します。理想的には、良い回答とは明確で正確、そして真に役立つものでなければなりません。それを実現するには、 AIモデルに言語スキル以上のものが必要です。特に特定のトピックや時間的制約のあるトピックについては、適切な情報へのアクセスも必要です。

RAGは、このギャップを埋めるのに役立つ技術です。言語モデルのテキスト理解・生成能力と、外部ソースから関連情報を取得する能力を組み合わせます。モデルは、学習データだけに頼るのではなく、信頼できる知識ベースから補足コンテンツを積極的に引き出しながら、応答を生成します。

図1. 主なRAGユースケース。画像は著者による。

これは、誰かに質問をして、信頼できる情報源を調べてから答えてもらうようなものです。答えは相手自身の言葉で書かれていますが、最も関連性の高い最新の情報に基づいています。

このアプローチにより、LLM はユーザーのクエリに合わせてより完全かつ正確な回答を返すことができるため、精度が本当に重要となる実際のアプリケーションにおいて、LLM の信頼性が大幅に高まります。

RAGの仕組み

RAGは、検索と生成という2つの重要なステップを導入することで、大規模言語モデルの応答処理を強化します。まず、外部知識ベースから関連情報を取得します。次に、その情報を用いて、文脈を考慮した適切な応答を生成します。

このプロセスがどのように機能するか、簡単な例で見てみましょう。AIアシスタントを使って個人の財務管理をしていて、その月の支出目標を守れたかどうかを確認したいとします。

このプロセスは、アシスタントに「今月の予算は守れたかな?」といった質問をすることで始まります。システムはトレーニング中に学習した情報だけに頼るのではなく、リトリーバーを使って最新の財務記録(銀行取引明細書や取引概要など)を検索します。質問の背後にある意図を理解することに重点を置き、最も関連性の高い情報を収集します。

情報が取得されると、言語モデルが処理を引き継ぎます。質問と記録から取得したデータの両方を処理し、明確で役立つ回答を生成します。回答では、生の支出の詳細を列挙するのではなく、支出の概要をまとめ、目標達成の確認や重要な支出分野の指摘など、直接的で有意義な洞察を提供します。

このアプローチにより、LLM は正確であるだけでなく、実際の最新情報に基づいた応答を提供できるようになり、静的なトレーニング データのみで動作するモデルよりもはるかに有用なエクスペリエンスが実現します。

図 2. RAG の仕組みを理解する。

マルチモーダルRAGシステムの必要性

通常、情報は必ずしもプレーンテキストで共有されるわけではありません。医療スキャンや図表、プレゼンテーションのスライド、スキャンした文書など、ビジュアル資料には重要な詳細が含まれていることがよくあります。主にテキストの読解を目的として構築された従来の法学修士課程では、このようなコンテンツの理解が困難になる場合があります。

しかし、RAGはコンピュータービジョンと併用することで、そのギャップを埋めることができます。この2つを組み合わせることで、マルチモーダルRAGシステムと呼ばれるシステムが形成されます。これは、テキストと画像の両方を処理できるシステムであり、AIチャットボットがより正確で完全な回答を提供できるようになります。

このアプローチの中核を成すのは、視覚言語モデル(VLM)です。これは、両方の種類の入力を処理・推論するために設計されています。この構成では、RAGが大規模なデータソースから最も関連性の高い情報を取得し、コンピュータービジョンによって実現されるVLMが画像、レイアウト、図表を解釈します。

これは、スキャンされたフォーム、医療報告書、プレゼンテーションスライドなど、重要な情報がテキストと画像の両方に隠されている可能性がある現実世界の文書に特に役立ちます。例えば、表や段落に加えて画像を含む文書を分析する場合、マルチモーダルシステムは画像要素を抽出し、それらが示す内容の要約を生成し、それを周囲のテキストと組み合わせることで、より包括的で役立つ回答を提供できます。

図 3.マルチモーダル RAG は画像とテキストを使用して、より優れた回答を提供します。

視覚データに対するRAGの応用 

RAG とは何か、そしてそれがコンピューター ビジョンでどのように機能するかについて説明しました。次に、このアプローチがどのように使用されているかを示す実際の例と研究プロジェクトをいくつか見てみましょう。

VisRAGでビジュアルドキュメントを理解する

例えば、財務報告書やスキャンした法務文書から洞察を抽出しようとしているとします。これらのファイルには、テキストだけでなく、情報の説明に役立つ表、グラフ、レイアウトが含まれていることがよくあります。単純な言語モデルでは、これらの視覚要素を見落としたり、誤って解釈したりして、不完全または不正確な応答につながる可能性があります。

VisRAGは、この課題に対処するために研究者によって開発されました。これはVLMベースのRAGパイプラインであり、各ページをテキストのみを処理するのではなく、画像として扱います。これにより、システムはコンテンツとその視覚的構造の両方を理解できます。その結果、最も関連性の高い部分を見つけ出し、より明確で正確な、文書全体の文脈に基づいた回答を提供できます。

図 4. VisRAG はドキュメントを画像として読み取り、テキストの内容とレイアウトをキャプチャできます。

RAGによる視覚的な質問応答

ビジュアル質問応答(VQA)は、AIシステムが画像に関する質問に答えるタスクです。既存の多くのVQAシステムは、追加情報の検索を必要とせずに単一の文書に関する質問に答えることに重点を置いています。これはクローズドセッティングと呼ばれます。

VDocRAGは、より現実的なアプローチを採用したRAGフレームワークです。VQAと関連文書を最初に取得する機能を統合しています。これは、ユーザーの質問が複数の文書のいずれかに該当する可能性があり、システムが回答前に適切な文書を見つける必要があるような現実世界の状況で役立ちます。これを実現するために、VDocRAGはVLMを使用して文書を画像として分析し、テキストと視覚的な構造の両方を保持します。

これにより、VDocRAGはエンタープライズ検索、ドキュメント自動化、カスタマーサポートなどのアプリケーションで特に効果を発揮します。マニュアルやポリシーファイルなど、レイアウトを理解することが文字を読むことと同じくらい重要な、複雑で視覚的にフォーマットされたドキュメントから、チームが迅速に回答を抽出できるよう支援します。

図 5. VDocRAG と LLM ベースのソリューションの違い。

RAG による画像キャプションの改善

画像キャプションとは、画像に何が描かれているかを記述した説明文を生成することです。オンラインコンテンツのアクセシビリティ向上から画像検索の強化、コンテンツモデレーションやレコメンデーションシステムのサポートまで、様々な用途で活用されています。

しかし、AIモデルにとって正確なキャプションを生成することは必ずしも容易ではありません。特に、画像がモデルの学習データと異なる場合、それは困難を極めます。多くのキャプション生成システムは学習データに大きく依存しているため、馴染みのないシーンでは、キャプションが曖昧になったり不正確になったりすることがあります。

この問題を解決するため、研究者らはRe-ViLMを開発しました。これは、画像キャプションに検索拡張生成(RAG)を導入する手法です。Re-ViLMは、キャプションをゼロから生成するのではなく、データベースから類似の画像とテキストのペアを取得し、それらを用いてキャプション出力を導きます。 

この検索ベースのアプローチにより、モデルは関連する例に基づいて説明を記述できるようになり、精度と流暢性の両方が向上します。初期結果では、Re-ViLMは実際の例を用いることで、より自然で文脈を考慮したキャプションを生成し、曖昧または不正確な説明を削減することが示されています。

図 6. Re-ViLM は、ビジュアルテキストの例を取得することで画像のキャプションを改善します。

RAGを使用して視覚データを理解することの長所と短所

検索拡張生成技術を適用して視覚情報を検索および使用する利点を簡単に説明します。 

  • 強化された要約機能:要約には、テキストだけでなく、ビジュアル (グラフの傾向やインフォグラフィック要素など) からの洞察も組み込むことができます。
  • より強力な検索と取得: 検索手順では、画像ベースの理解を使用して、テキストにキーワードが存在しない場合でも、関連するビジュアル ページを識別できます。
  • スキャンされたドキュメント、手書きのドキュメント、または画像ベースのドキュメントのサポート: VLM によって有効化された RAG パイプラインは、テキストのみのモデルでは読み取れないコンテンツを処理できます。

これらの利点にもかかわらず、RAG を使用してビジュアルデータを扱う際には、いくつかの制限事項に留意する必要があります。主なものをいくつかご紹介します。

  • 高いコンピューティング要件:画像とテキストの両方を分析すると、より多くのメモリと処理能力が使用されるため、パフォーマンスが低下したり、コストが増加したりする可能性があります。
  • データのプライバシーとセキュリティに関する懸念:特に医療や金融などの分野では、視覚的なドキュメントに機密情報が含まれている場合があり、検索や処理のワークフローが複雑になります。
  • 推論時間が長くなる:視覚的な処理によって複雑さが増すため、テキストのみのシステムに比べて応答の生成に時間がかかることがあります。

要点

検索拡張生成は、外部ソースから関連性の高い最新情報を取得できるようにすることで、大規模言語モデルが質問に答える方法を改善します。コンピュータービジョンと組み合わせることで、これらのシステムはテキストだけでなく、グラフ、表、画像、スキャンされた文書などの視覚コンテンツも処理できるため、より正確で包括的な回答が得られます。

このアプローチにより、LLMは複雑な文書を扱う実世界のタスクにより適したものになります。検索と視覚的理解を組み合わせることで、これらのモデルは多様なフォーマットをより効果的に解釈し、実用的かつ日常的な状況でより有用な洞察を提供できるようになります。

成長を続けるコミュニティにぜひご参加ください! GitHubリポジトリでAIの世界を深く探求しましょう。ご自身のコンピュータービジョンプロジェクトを始める準備はできましたか?ライセンスオプションをご確認ください。ヘルスケア分野におけるAI小売業界におけるコンピュータービジョンについて、ソリューションページで詳しくご覧ください。

リンクトインのロゴツイッターのロゴFacebookのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう