Yolo 深圳
深セン
今すぐ参加
用語集

ビジュアル質問応答(VQA)

視覚的質問応答(VQA):マルチモーダルAIがどのようにコンピュータビジョンとNLPを組み合わせて画像ベースの質問に答えるのか、主要な手法と実際の使用例をご紹介します。

視覚的質問応答(VQA)は、人工知能(AI)の中の高度な学際的タスクである。 人工知能 コンピュータビジョン(CV)と自然言語処理(NLP)の間のギャップを埋める。 自然言語処理(NLP)のギャップを埋める。 従来のコンピュータ・ビジョン・システムが物体の認識や画像の分類に重点を置いているのに対し、VQAシステムは以下のように設計されている。 は、画像の視覚的内容に基づいて、特定の質問に対する自然言語による回答を提供するように設計されている。例えば という質問に対して、VQAモデルは画像を分析し、特定の物体を特定する。 という質問が与えられた場合、VQAモデルは画像を分析し、特定のオブジェクトを見つけ、その属性を決定し、正しいテキスト回答を作成する。この 異なるデータモダリティを横断して推論する能力により、VQAは先進的なマルチモーダルAIの基本要素となっている。 基本要素となっている。

ビジュアル質問回答の仕組み

VQAシステムのアーキテクチャは、通常、3つの主要な段階を含んでいる。 答えの生成である。最初に、システムは深層学習モデルを使用して入力を処理する。例えば 畳み込みニューラルネットワーク(CNN) またはViT(Vision Transformer)のような視覚モデルが、画像から視覚的特徴を抽出する。 画像から視覚的特徴を抽出する。同時に、質問のテキストはトークン化され、言語モデルを使用してエンディングに変換される。 埋め込みに変換される

重要なステップは、これら2つの情報の流れを融合させることである。現代のシステムは、多くの場合 アテンション・メカニズム によって一般化された概念である。 を画像の対応する領域に合わせる。これにより、モデルは画像の関連する部分(例えば これにより、"color "という単語を処理するとき、モデルは画像の関連する部分(例えば、車)を「見る」ことができる。最後に、モデルは答えを予測する、 この問題を、可能性のある答えの集合に特化した分類タスクとして扱います。これらの モデルの訓練には、ベンチマークであるVQAデータなど、膨大な注釈付き訓練データが必要である。 ベンチマークであるVQAデータセットには、数百万の画像-質問-答えのトリプレットが含まれています。 トリプレットが含まれている。

VQAシステムは複雑だが、ビジュアルコンポーネントは多くの場合、堅牢な検出能力に依存している。YOLO11のようなモデルが YOLO11 ようなモデルが、どのように基礎となるオブジェクトデータを抽出するかは、以下をご覧いただきたい:

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

実際のアプリケーション

VQA技術は、機械が人間のような方法で文脈を理解することを可能にすることで、産業を変革している。

  1. 視覚障害者のための支援技術:最もインパクトのあるアプリケーションのひとつが アクセシビリティ・ツールである。Be My Eyesのようなアプリは、視覚的推論を活用して、目の不自由なユーザーや弱視のユーザーに周囲の状況を説明します。 視覚障害者に周囲の状況を説明する。ユーザーはパントリーの写真を撮って、「この缶詰はトマトですか、それともチキンラーメンですか? と尋ねることができ、日常生活でより大きな自立を可能にする。
  2. 医用画像解析:医療 医療におけるAIでは、VQAはインテリジェントなセカンドオピニオンとして専門家を支援します。 インテリジェントなセカンドオピニオンとして機能する。放射線科医がMRIスキャンについて、次のような質問をシステムに問い合わせることがある、 「この部位に骨折の兆候はありますか?PubMed PubMedにアーカイブれた研究は、これらのシステムがいかに診断精度を向上させ、臨床ワークフローをスピードアップさせるかを強調している。 このようなシステムがどのように診断精度を向上させ、臨床ワークフローをスピードアップさせることができるかを強調している。
  3. インテリジェントな監視:セキュリティ・オペレーターはVQAを使用して、何時間分ものビデオ映像を即座に照会します。 手動でフィードを見る代わりに、オペレーターは セキュリティAI と入力するだけで、関連するイベントを検索することができます。

関連概念との関係

VQAを完全に理解するためには、機械学習(ML)業界における類似の用語と区別する必要がある。 機械学習

  • VQAと画像キャプションの比較:画像キャプションは、画像全体の一般的な説明を生成するものである。 公園で遊ぶ犬」など)。対照的に、VQAは目標指向で、特定の質問に答えるため、より的を絞った推論が必要となる。
  • VQAと視覚的グラウンディングの比較:グラウンディングとは、テキストの説明で言及されている特定のオブジェクトの位置を特定する作業である(例えば、「青い服の男」の周囲にバウンディングボックスを描く)。 を囲むバウンディングボックスを描くなど)。 を囲むバウンディングボックスを描くなど)。VQAは多くの場合、そのオブジェクトに関する質問に答えるための中間ステップとしてグラウンディングを使用する。
  • VQAと物体検出の比較:のような検出モデル YOLO11のような検出モデルは、画像内の何が どこにあるかを特定する。VQA はさらに一歩進んで、ユーザーのクエリを満たすために、それらのオブジェクトの属性と関係を理解する。

VQAの開発は、以下のようなオープンソースのフレームワークによって支えられている。 PyTorchTensorFlowの台頭とともに進化し続けている。 ビジョンパイプラインに統合された大規模言語モデル(LLM ビジョンパイプラインに統合された

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加