AIにおけるRAGとコンピュータビジョンの応用

ChatGPTやGeminiのようなAIツールを使用することは、情報を探す一般的な方法になりつつあります。メッセージの作成、ドキュメントの要約、質問への回答など、これらのツールは多くの場合、より速く、より簡単なソリューションを提供します。

しかし、大規模言語モデル（LLM）を数回使用したことがある場合は、その制限に気付いたことがあるでしょう。非常に具体的または時間的に重要なクエリを求められた場合、多くの場合、自信を持って誤った回答をする可能性があります。

これは、スタンドアロンのLLMが、トレーニングされたデータのみに依存しているために発生します。これらのモデルは、そのデータセットを超える最新のアップデートや専門知識にアクセスできません。その結果、回答が古くなったり、不正確になったりする可能性があります。

この問題を解決するために、研究者たちは検索拡張生成（RAG）と呼ばれる手法を開発しました。RAG は、クエリに応答する際に信頼できるソースから最新の関連情報を取得できるようにすることで、言語モデルを強化します。

この記事では、RAGの仕組みと、関連性の高い最新の情報を取得することで、AIツールをどのように強化するかを探ります。また、テキストだけでなく、画像、レイアウト、視覚的に複雑なドキュメントもシステムが理解できるように、視覚データの解釈に焦点を当てた人工知能の分野であるコンピュータビジョンと連携して、どのように機能するかについても見ていきます。

検索拡張生成（RAG）について

AIチャットボットに質問するとき、私たちは一般的に、聞こえの良いだけの応答以上のものを期待します。理想的には、良い答えは明確で、正確で、本当に役立つものであるべきです。それを実現するためには、AIモデルは言語スキルだけでなく、適切な情報へのアクセスも必要です。特に、特定のトピックや時間的制約のあるトピックについてはそうです。

RAGは、このギャップを埋めるのに役立つ技術です。言語モデルのテキストを理解し生成する能力と、外部ソースから関連情報を検索する能力を結びつけます。モデルは、トレーニングデータのみに依存するのではなく、応答を形成する際に、信頼できる知識ベースからサポートコンテンツを積極的に取り込みます。

‍

誰かに質問をして、その人が応答する前に信頼できる参考資料を参照するようなものだと考えることができます。彼らの答えは依然として彼ら自身の言葉ですが、最も関連性の高い最新の情報に基づいています。

このアプローチは、LLMがより完全で正確、かつユーザーのクエリに合わせた回答を生成するのに役立ち、精度が非常に重要な実際のアプリケーションにおいて、LLMの信頼性を大幅に向上させます。

RAGの仕組みについて

RAGは、大規模言語モデルの応答を、検索と生成という2つの重要なステップを導入することで強化します。まず、外部知識ベースから関連情報を検索します。次に、その情報を使用して、適切に構成された、コンテキストを意識した応答を生成します。

このプロセスがどのように機能するかを理解するために、簡単な例を見てみましょう。AIアシスタントを使って個人の財務を管理し、その月の支出目標を超えていないか確認したいとします。

プロセスは、アシスタントに「今月は予算を守れましたか？」のような質問をするところから始まります。システムは、トレーニング中に学習したことだけに頼るのではなく、リトリーバーを使用して、最新の財務記録（銀行の明細書や取引の概要など）を検索します。質問の背後にある意図を理解することに焦点を当て、最も関連性の高い情報を収集します。

その情報が取得されると、言語モデルが引き継ぎます。質問と記録から取得されたデータの両方を処理して、明確で役立つ回答を生成します。生の詳細をリストするのではなく、応答は支出を要約し、目標を達成したかどうかを確認したり、主要な支出分野を指摘したりするなど、直接的で意味のある洞察を提供します。

このアプローチは、LLMが正確であるだけでなく、最新の実際の情報に基づいた回答を提供するのに役立ち、静的なトレーニングデータのみを使用するモデルよりもはるかに有用なエクスペリエンスを提供します。

‍

マルチモーダルRAGシステムの必要性

通常、情報は常にプレーンテキストで共有されるとは限りません。医療用スキャンや図から、プレゼンテーションスライドやスキャンされたドキュメントまで、ビジュアルには重要な詳細が含まれていることがよくあります。主にテキストを読んで理解するように構築されている従来のLLMは、この種のコンテンツに苦労する可能性があります。

しかし、RAGをコンピュータビジョンと組み合わせて使用することで、そのギャップを埋めることができます。2つを組み合わせると、マルチモーダルRAGシステムと呼ばれる、テキストとビジュアルの両方を処理できるセットアップが形成され、AIチャットボットがより正確で完全な回答を提供できるようになります。

このアプローチの中核となるのは、vision-language models (VLM: 視覚言語モデル)であり、これらは両方のタイプの入力を処理し、推論するように設計されています。この構成では、RAGが大規模なデータソースから最も関連性の高い情報を検索し、コンピュータビジョンによって実現されたVLMが画像、レイアウト、図を解釈します。

これは、スキャンされたフォーム、医療レポート、プレゼンテーションスライドなど、テキストとビジュアルの両方に重要な詳細が含まれている可能性のある実際のドキュメントで特に役立ちます。たとえば、テーブルや段落とともに画像が含まれるドキュメントを分析する場合、マルチモーダルシステムは視覚要素を抽出し、それらが示す内容の要約を生成し、それを周囲のテキストと組み合わせて、より完全で役立つ応答を提供できます。

Fig 3. マルチモーダルRAGは、画像とテキストを使用して、より良い回答を提供します。

‍

視覚データに対するRAGの応用

RAGとは何か、そしてそれがコンピュータビジョンとどのように連携するかを説明しましたので、このアプローチがどのように使用されているかを示す現実世界の例と研究プロジェクトを見ていきましょう。

VisRAGによる視覚的なドキュメントの理解

財務報告書やスキャンされた法的文書から洞察を抽出する場合を考えてみましょう。これらの種類のファイルには、テキストだけでなく、情報を説明するのに役立つ表、グラフ、レイアウトも含まれていることがよくあります。単純な言語モデルは、これらの視覚的要素を見落としたり、誤って解釈したりして、不完全または不正確な応答につながる可能性があります。

VisRAGは、この課題に対処するために研究者によって作成されました。テキストのみを処理するのではなく、各ページを画像として扱うVLMベースのRAGパイプラインです。これにより、システムはコンテンツとその視覚構造の両方を理解できます。その結果、最も関連性の高い部分を見つけ、ドキュメントの完全なコンテキストに基づいて、より明確で正確な回答を提供できます。

図4. VisRAGは、テキストコンテンツとレイアウトをキャプチャするために、ドキュメントを画像として読み取ることができます。

‍

RAGによるVisual question answering

Visual question answering（VQA）は、AIシステムが画像に関する質問に答えるタスクです。既存のVQAシステムの多くは、追加の情報を検索する必要なく、単一のドキュメントに関する質問に答えることに重点を置いています。これは、クローズド設定と呼ばれています。

VDocRAGは、より現実的なアプローチをとるRAGフレームワークです。VQAと、最初に関連するドキュメントを取得する機能を統合します。これは、ユーザーの質問が多数のドキュメントの1つに適用される可能性があり、システムが回答する前に適切なドキュメントを見つける必要がある実際の状況で役立ちます。これを行うために、VDocRAGはVLMを使用してドキュメントを画像として分析し、テキストと視覚構造の両方を保持します。

これにより、VDocRAGは、エンタープライズ検索、ドキュメントの自動化、カスタマーサポートなどのアプリケーションで特に影響力があります。チームは、レイアウトの理解が単語を読むのと同じくらい重要なマニュアルやポリシーファイルなど、複雑で視覚的にフォーマットされたドキュメントから迅速に回答を抽出できます。

‍

RAGによる画像キャプションの改善

画像キャプションとは、画像内で何が起こっているかを文章で説明することです。オンラインコンテンツのアクセシビリティ向上から、画像検索の強化、コンテンツのモデレーションやレコメンデーションシステムのサポートまで、さまざまなアプリケーションで使用されています。

しかし、AIモデルにとって正確なキャプションを生成することは必ずしも容易ではありません。画像がモデルのトレーニング内容と異なるものを示している場合は特に困難です。多くのキャプションシステムはトレーニングデータに大きく依存しているため、見慣れないシーンに直面すると、キャプションがあいまいになったり、不正確になったりすることがあります。

これに対処するため、研究者たちは、検索拡張生成（RAG）を画像キャプションに取り入れた手法であるRe-ViLMを開発しました。Re-ViLMは、キャプションをゼロから生成する代わりに、データベースから類似の画像とテキストのペアを取得し、それらを使用してキャプションの出力をガイドします。

この検索ベースのアプローチは、モデルが関連する例に基づいて記述するのに役立ち、精度と流暢さの両方を向上させます。初期の結果では、Re-ViLMは実際の例を使用することで、より自然でコンテキストを意識したキャプションを生成し、曖昧または不正確な記述を減らすのに役立つことが示されています。

図6：Re-ViLMは、視覚テキストの例を検索することにより、画像キャプションを改善します。

‍

RAG（Retrieval-Augmented Generation）を利用して視覚データを理解することの利点と欠点

検索拡張生成技術を適用して視覚情報を検索および使用することの利点の概要を以下に示します。

強化された要約機能：要約は、テキストだけでなく、ビジュアル（チャートの傾向やインフォグラフィック要素など）からの洞察も組み込むことができます。
‍
より堅牢な検索と検索：検索ステップでは、キーワードがテキストに存在しない場合でも、画像ベースの理解を使用して、関連する視覚的なページを識別できます。
‍
スキャン、手書き、または画像ベースのドキュメントのサポート： VLMによって実現されるRAGパイプラインは、テキストのみのモデルでは判読できないコンテンツを処理できます。

これらの利点があるにもかかわらず、RAGを使用して視覚データを扱う際には、留意すべきいくつかの制限事項があります。主なものを以下に示します。

高い計算要件: 画像とテキストの両方を分析すると、より多くのメモリと処理能力が使用されるため、パフォーマンスが低下したり、コストが増加したりする可能性があります。
‍
データのプライバシーとセキュリティに関する懸念: 視覚的なドキュメント、特に医療や金融などの分野では、機密情報が含まれている可能性があり、検索と処理のワークフローが複雑になります。
‍
推論時間が長くなる: 視覚処理によって複雑さが増すため、テキストのみのシステムと比較して、応答の生成に時間がかかることがあります。

主なポイント

検索拡張生成（Retrieval-augmented generation）は、大規模言語モデルが外部ソースから関連性の高い最新情報を取得できるようにすることで、質問への回答方法を改善しています。コンピュータビジョンと組み合わせることで、これらのシステムはテキストだけでなく、チャート、表、画像、スキャンされたドキュメントなどの視覚コンテンツも処理できるようになり、より正確でバランスの取れた応答につながります。

このアプローチにより、LLMは複雑なドキュメントを扱う実際のタスクにより適したものになります。検索と視覚的理解を組み合わせることで、これらのモデルは多様な形式をより効果的に解釈し、実用的で日常的なコンテキストでより役立つ洞察を提供できます。

成長を続けるコミュニティに参加しましょう！GitHubリポジトリを調べて、AIについてさらに深く掘り下げてください。独自のコンピュータビジョンプロジェクトを始める準備はできましたか？ライセンスオプションをご覧ください。ソリューションページでは、ヘルスケアにおけるAIや小売業におけるコンピュータビジョンについて詳しく紹介しています。

RAGとコンピュータビジョンによるAIアプリケーションの強化

検索拡張生成（RAG）について

RAGの仕組みについて

マルチモーダルRAGシステムの必要性