用語集

ビジュアル質問応答（VQA）

視覚的質問応答（VQA）：マルチモーダルAIがどのようにコンピュータビジョンとNLPを組み合わせて画像ベースの質問に答えるのか、主要な手法と実際の使用例をご紹介します。

視覚的質問応答(VQA)は、人工知能(AI)の中の高度な学際的タスクである。人工知能コンピュータビジョン(CV)と自然言語処理(NLP)の間のギャップを埋める。自然言語処理（NLP）のギャップを埋める。従来のコンピュータ・ビジョン・システムが物体の認識や画像の分類に重点を置いているのに対し、VQAシステムは以下のように設計されている。は、画像の視覚的内容に基づいて、特定の質問に対する自然言語による回答を提供するように設計されている。例えばという質問に対して、VQAモデルは画像を分析し、特定の物体を特定する。という質問が与えられた場合、VQAモデルは画像を分析し、特定のオブジェクトを見つけ、その属性を決定し、正しいテキスト回答を作成する。この異なるデータモダリティを横断して推論する能力により、VQAは先進的なマルチモーダルAIの基本要素となっている。の基本要素となっている。

ビジュアル質問回答の仕組み

VQAシステムのアーキテクチャは、通常、3つの主要な段階を含んでいる。答えの生成である。最初に、システムは深層学習モデルを使用して入力を処理する。例えば畳み込みニューラルネットワーク（CNN）またはViT（Vision Transformer）のような視覚モデルが、画像から視覚的特徴を抽出する。画像から視覚的特徴を抽出する。同時に、質問のテキストはトークン化され、言語モデルを使用してエンディングに変換される。埋め込みに変換される。

重要なステップは、これら2つの情報の流れを融合させることである。現代のシステムは、多くの場合アテンション・メカニズムによって一般化された概念である。を画像の対応する領域に合わせる。これにより、モデルは画像の関連する部分（例えばこれにより、"color "という単語を処理するとき、モデルは画像の関連する部分（例えば、車）を「見る」ことができる。最後に、モデルは答えを予測する、この問題を、可能性のある答えの集合に特化した分類タスクとして扱います。これらのモデルの訓練には、ベンチマークであるVQAデータなど、膨大な注釈付き訓練データが必要である。ベンチマークであるVQAデータセットには、数百万の画像-質問-答えのトリプレットが含まれています。トリプレットが含まれている。

VQAシステムは複雑だが、ビジュアルコンポーネントは多くの場合、堅牢な検出能力に依存している。YOLO11のようなモデルが YOLO11 ようなモデルが、どのように基礎となるオブジェクトデータを抽出するかは、以下をご覧いただきたい：

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

実際のアプリケーション

VQA技術は、機械が人間のような方法で文脈を理解することを可能にすることで、産業を変革している。

視覚障害者のための支援技術：最もインパクトのあるアプリケーションのひとつがアクセシビリティ・ツールである。Be My Eyesのようなアプリは、視覚的推論を活用して、目の不自由なユーザーや弱視のユーザーに周囲の状況を説明します。視覚障害者に周囲の状況を説明する。ユーザーはパントリーの写真を撮って、「この缶詰はトマトですか、それともチキンラーメンですか？と尋ねることができ、日常生活でより大きな自立を可能にする。
医用画像解析：医療医療におけるAIでは、VQAはインテリジェントなセカンドオピニオンとして専門家を支援します。インテリジェントなセカンドオピニオンとして機能する。放射線科医がMRIスキャンについて、次のような質問をシステムに問い合わせることがある、「この部位に骨折の兆候はありますか？PubMed PubMedにアーカイブされた研究は、これらのシステムがいかに診断精度を向上させ、臨床ワークフローをスピードアップさせるかを強調している。このようなシステムがどのように診断精度を向上させ、臨床ワークフローをスピードアップさせることができるかを強調している。
インテリジェントな監視：セキュリティ・オペレーターはVQAを使用して、何時間分ものビデオ映像を即座に照会します。手動でフィードを見る代わりに、オペレーターはセキュリティAI と入力するだけで、関連するイベントを検索することができます。

ビジュアル質問応答（VQA）

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

ビジュアル質問回答の仕組み

実際のアプリケーション

関連概念との関係

このカテゴリの関連記事

自己教師付き学習によるノイズ除去：段階的な分解

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics コミュニティに参加する