YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

RAGとコンピュータビジョンによるAIアプリケーションの強化

検索拡張生成(RAG)とコンピュータビジョンを組み合わせることが、どのようにAIシステムが文書、視覚情報、複雑な実世界のコンテンツを解釈する助けとなっているかを学びます。

ABAbirami Vina
4 min read
RAGとコンピュータビジョンによるAIアプリケーションの強化

ChatGPTやGeminiのようなAIツールの利用は、情報を検索する一般的な手段として急速に定着しつつあります。メッセージの作成、文書の要約、質問への回答など、これらのツールは多くの場合、より迅速で容易な解決策を提供します。

しかし、大規模言語モデル(LLM)を何度か利用したことがあるなら、その限界にお気づきでしょう。非常に具体的あるいは時間的制約のある質問をした場合、それらは間違った回答を自信満々に行うことがあります。

これは、スタンドアロンのLLMが学習データのみに依存しているために起こります。それらは最新のアップデートや、そのデータセット外の専門知識にアクセスできないため、結果として回答が古かったり不正確だったりすることがあります。

この問題を解決するために、研究者たちは検索拡張生成(RAG)と呼ばれる手法を開発しました。RAGは、言語モデルが質問に回答する際に、信頼できるソースから新鮮で関連性の高い情報を取得できるようにすることで、言語モデルを強化します。

本記事では、RAGの仕組みと、それが関連性の高い最新情報を取得することでどのようにAIツールを強化するかを探ります。また、視覚データの解釈に重点を置いた人工知能の分野であるコンピュータビジョンとどのように連携し、テキストだけでなく画像、レイアウト、視覚的に複雑な文書をシステムが理解できるよう支援するのかについても見ていきます。

Link to this section検索拡張生成(RAG)を理解する#

AIチャットボットに質問する際、私たちは単に心地よく聞こえる以上の回答を期待します。理想的な回答は、明確かつ正確で、本当に役立つものであるべきです。これを実現するには、AIモデルには言語能力だけでなく、特に特定の話題や時間的制約のあるトピックにおいて、適切な情報にアクセスする能力が必要です。

RAGは、このギャップを埋めるのに役立つ技術です。これは、テキストを理解し生成する言語モデルの能力と、外部ソースから関連情報を取得する力を組み合わせたものです。モデルは学習データだけに頼るのではなく、回答を構成する際に、信頼できるナレッジベースから補足的なコンテンツを積極的に取り込みます。

主要なRAGユースケース

図1:主要なRAGのユースケース。画像提供:著者。

これは、誰かに質問をしたときに、その人が回答する前に信頼できる参考文献を参照するようなものだと考えてください。回答は彼ら自身の言葉ですが、最も関連性が高く最新の情報に基づいています。

このアプローチは、LLMがユーザーの質問に対してより完全で正確、かつ個別に調整された回答をするのに役立ち、精度が真に重要となる実世界でのアプリケーションにおいて、LLMをはるかに信頼性の高いものにします。

Link to this sectionRAGの仕組みを見てみる#

RAGは、検索と生成という2つの重要なステップを導入することで、大規模言語モデルの回答方法を強化します。まず、外部のナレッジベースから関連情報を検索します。次に、その情報を使用して、適切に構成されたコンテキストを考慮した回答を生成します。

このプロセスがどのように機能するか、簡単な例を見てみましょう。個人の財務管理にAIアシスタントを使用していて、その月の支出目標内に収まっているかを確認したいとします。

プロセスは、「今月は予算内に収まった?」といった質問をアシスタントにしたときに始まります。システムはトレーニング中に学習したことだけに頼るのではなく、レトリバーを使用して、銀行取引明細書や取引の要約といった、最近の財務記録を検索します。質問の背後にある意図を理解することに重点を置き、最も関連性の高い情報を収集します。

その情報が検索されると、言語モデルが引き継ぎます。あなたの質問と記録から抽出されたデータの両方を処理して、明確で役立つ回答を生成します。生のデータをリストアップするのではなく、支出を要約して、目標を達成できたかの確認や重要な支出エリアの指摘など、直接的で意味のある洞察を提供します。

このアプローチにより、LLMは正確であるだけでなく、現実の最新の情報に基づいた回答を提供できるようになり、静的な学習データのみを使用するモデルよりもはるかに有用なエクスペリエンスになります。

RAGの仕組みを理解する

図2: RAGの仕組みを理解する。

Link to this sectionマルチモーダルRAGシステムの必要性#

一般的に、情報は常にプレーンテキストで共有されるとは限りません。医療スキャンや図から、プレゼンテーションのスライドやスキャンされた文書に至るまで、視覚情報には重要な詳細が含まれていることがよくあります。テキストを読み、理解するように構築されている従来のLLMは、このようなコンテンツに苦労する可能性があります。

しかし、RAGをコンピュータビジョンと組み合わせて使用することで、そのギャップを埋めることができます。両者を統合すると、テキストと視覚情報の両方を処理できるマルチモーダルRAGシステムとして知られるセットアップが形成され、AIチャットボットがより正確で完全な回答を提供できるようになります。

このアプローチの核心にあるのは、両方の種類の入力を処理して推論するように設計された視覚言語モデル(VLM)です。このセットアップでは、RAGが大規模なデータソースから最も関連性の高い情報を検索し、コンピュータビジョンによって有効化されたVLMが画像、レイアウト、図を解釈します。

これは、テキストと視覚情報の両方に重要な詳細が含まれている可能性のある、スキャンされたフォーム、医療報告書、プレゼンテーションスライドのような実世界の文書において特に役立ちます。例えば、表や段落の横に画像が含まれる文書を分析する場合、マルチモーダルシステムは視覚要素を抽出し、それらが何を示しているかの要約を生成し、それを周囲のテキストと組み合わせて、より完全で役立つ回答を提供できます。

画像とテキストを使用してより良い回答を提供するマルチモーダルRAG

図3: マルチモーダルRAGは、画像とテキストを使用してより良い回答を提供します。

Link to this section視覚データに対するRAGのアプリケーション#

RAGとは何か、そしてそれがコンピュータビジョンとどのように連携するのかについて説明しましたので、このアプローチがどのように使用されているかを示す実世界の例や研究プロジェクトを見ていきましょう。

Link to this sectionVisRAGで視覚文書を理解する#

財務報告書やスキャンされた法的文書から洞察を抽出しようとしているとします。これらの種類のファイルには、テキストだけでなく、情報の説明に役立つ表、グラフ、レイアウトが含まれていることがよくあります。単純な言語モデルはこれらの視覚要素を見落としたり誤解釈したりする可能性があり、不完全または不正確な回答につながります。

VisRAGは、この課題に対処するために研究者によって作成されました。これは、テキストのみを処理するのではなく、各ページを画像として扱うVLMベースのRAGパイプラインです。これにより、システムはコンテンツとその視覚的な構造の両方を理解できます。その結果、最も関連性の高い部分を見つけ出し、文書の全体的なコンテキストに基づいて、より明確で正確な回答を提供できます。

コンテンツとレイアウトをキャプチャするために文書を画像として読み取るVisRAG

図4:VisRAGは、テキストコンテンツとレイアウトをキャプチャするために文書を画像として読み取ることができます。

Link to this sectionRAGを使用した視覚的な質問応答#

視覚的な質問応答(VQA)は、AIシステムが画像に関する質問に回答するタスクです。既存の多くのVQAシステムは、追加情報を検索することなく単一の文書に関する質問に回答することに焦点を当てており、これはクローズド設定として知られています。

VDocRAGは、より現実的なアプローチをとるRAGフレームワークです。VQAと、まず関連文書を検索する機能を統合しています。これは、ユーザーの質問が多数の文書のいずれかに適用される可能性があり、システムが回答前に正しい文書を見つける必要がある実世界の状況で役立ちます。これを行うために、VDocRAGはVLMを使用して文書を画像として分析し、テキストと視覚構造の両方を保持します。

これにより、VDocRAGは企業検索、文書自動化、カスタマーサポートなどのアプリケーションで特に効果的になります。マニュアルやポリシーファイルのように、レイアウトの理解が単語を読むことと同じくらい重要な、視覚的にフォーマットされた複雑な文書から、チームが迅速に回答を抽出するのに役立ちます。

VDocRAGとLLMベースのソリューションの違い

図5: VDocRAGとLLMベースのソリューションの違い。

Link to this sectionRAGによる画像キャプション生成の改善#

画像キャプション生成には、画像内で何が起きているかの説明文を生成することが含まれます。オンラインコンテンツへのアクセシビリティ向上から、画像検索の強化、コンテンツモデレーションやレコメンデーションシステムのサポートまで、幅広いアプリケーションで使用されています。

しかし、正確なキャプションを生成することは、AIモデルにとって必ずしも容易ではありません。特に画像がモデルの学習内容と異なるものを示している場合は困難です。多くのキャプションシステムはトレーニングデータに大きく依存しているため、見慣れないシーンに直面すると、生成されるキャプションが曖昧になったり不正確になったりする可能性があります。

これに対処するため、研究者たちは画像キャプション生成にRAGを取り入れる手法であるRe-ViLMを開発しました。Re-ViLMはゼロからキャプションを生成するのではなく、データベースから類似の画像とテキストのペアを検索し、それらを使用してキャプションの出力をガイドします。

この検索ベースのアプローチは、モデルが関連する例に基づいて説明の根拠を示すのに役立ち、精度と流暢さの両方を向上させます。初期の結果によると、Re-ViLMは実際の例を使用することで、より自然でコンテキストを考慮したキャプションを生成し、曖昧または不正確な説明を減らすのに役立っています。

視覚テキストの例を取得して画像キャプションを改善するRe-ViLM

図6:Re-ViLMは、視覚と言語の例を検索することで画像キャプションを改善します。

Link to this section視覚データの理解にRAGを使用するメリットとデメリット#

視覚情報を取得して利用するために、検索拡張生成技術を適用するメリットを簡単に見てみましょう:

  • 要約機能の強化: テキストだけでなく、視覚情報(グラフのトレンドやインフォグラフィック要素など)からの洞察を要約に組み込むことができます。
  • より堅牢な検索と取得: 検索ステップでは、画像ベースの理解を使用して、テキストにキーワードが存在しない場合でも関連する視覚ページを特定できます。
  • スキャンされた文書、手書き文書、または画像ベースの文書のサポート: VLMによって有効化されたRAGパイプラインは、テキストのみのモデルでは読み取れないコンテンツを処理できます。

これらの利点にもかかわらず、RAGを使用して視覚データを扱う際には、留意すべき制限がまだいくつかあります。主なものをいくつか挙げます:

  • 高いコンピューティング要件: 画像とテキストの両方を分析するには、より多くのメモリと処理能力が必要であり、パフォーマンスが低下したりコストが増加したりする可能性があります。
  • データプライバシーおよびセキュリティ上の懸念: 特に医療や金融などの分野における視覚文書には、検索や処理のワークフローを複雑にする機密情報が含まれている可能性があります。
  • より長い推論時間: 視覚処理によって複雑さが増すため、テキストのみのシステムと比較して回答の生成に時間がかかる場合があります。

Link to this section重要なポイント#

検索拡張生成は、大規模言語モデルが外部ソースから関連する最新情報を取得できるようにすることで、質問への回答方法を改善しています。コンピュータビジョンと組み合わせることで、これらのシステムはテキストだけでなく、グラフ、表、画像、スキャンされた文書などの視覚コンテンツも処理でき、より正確でバランスの取れた回答につながります。

このアプローチにより、LLMは複雑な文書を伴う実世界のタスクにより適したものになります。検索と視覚的な理解を組み合わせることで、これらのモデルは多様なフォーマットをより効果的に解釈し、実際の日常的なコンテキストでより役立つ洞察を提供できるようになります。

成長中のコミュニティに参加しましょう!AIをより深く探求するために、GitHubリポジトリをチェックしてください。独自のコンピュータビジョンプロジェクトを開始する準備はできていますか?ライセンスオプションを確認してください。医療分野におけるAIおよび小売業におけるコンピュータビジョンの詳細については、ソリューションページをご覧ください!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう