Yolo 비전 선전
선전
지금 참여하기
용어집

시각적 질문 답변(VQA)

시각적 질문 답변(VQA): 멀티모달 AI가 컴퓨터 비전과 NLP를 결합하여 이미지 기반 질문에 답변하는 방법과 주요 방법 및 실제 사용 사례에 대해 알아보세요.

시각적 질의응답(VQA)은 인공지능(AI) 분야의 정교한 다분야 작업으로 인공 지능(AI) 내에서 컴퓨터 비전(CV)자연어 처리(NLP) 사이의 간극을 메우는 작업입니다. 기존의 컴퓨터 비전 시스템이 물체를 인식하거나 이미지를 분류하는 데 중점을 두었다면, VQA 시스템은 이미지의 시각적 콘텐츠를 기반으로 특정 질문에 대한 자연어 답변을 제공하도록 설계되었습니다. 예를 들어 거리 풍경 사진과 "왼쪽에 있는 차는 무슨 색인가요?"라는 질문이 주어지면 VQA 모델은 이미지를 분석하여 이미지를 분석하고 특정 객체를 찾아 속성을 결정한 후 올바른 텍스트 응답을 작성합니다. 이러한 다양한 데이터 양식에 걸쳐 추론하는 능력 덕분에 VQA는 고급 멀티모달 AI의 고급 멀티모달 AI의 기본 구성 요소입니다.

시각적 질문 답변의 작동 방식

VQA 시스템의 아키텍처는 일반적으로 특징 추출, 멀티모달 융합, 답변 생성의 세 가지 주요 단계로 구성됩니다. 답변 생성. 처음에 시스템은 딥러닝 모델을 사용하여 입력을 처리합니다. 다음과 같은 비전 모델이 사용됩니다. 컨볼루션 신경망(CNN) 또는 비전 트랜스포머(ViT)와 같은 비전 모델은 이미지에서 이미지에서 시각적 특징을 추출합니다. 동시에 텍스트 질문은 토큰화되고 언어 모델을 사용하여 임베딩으로 변환합니다.

중요한 단계는 이 두 가지 정보 스트림을 융합하는 것입니다. 최신 시스템은 종종 주의 메커니즘을 활용하기도 합니다. 연구 논문 "주의력만 있으면 된다"에서 널리 알려진 개념인 주의 메커니즘을 활용하여 텍스트 단어를 이미지의 해당 영역과 정렬합니다. 이를 통해 모델은 그림의 관련 부분을 "보기" 위해 사진(예: 자동차)을 "색상"이라는 단어를 처리할 때. 마지막으로 모델이 답을 예측합니다, 가능한 답변 세트에 대한 전문 분류 작업으로 문제를 효과적으로 처리합니다. 이러한 모델을 훈련하려면 다음과 같은 방대한 주석이 달린 훈련 데이터가 필요합니다. 수백만 개의 이미지 질문-답변이 포함된 벤치마크 VQA 데이터세트와 같은 방대한 주석이 달린 학습 데이터 트리플렛.

VQA 시스템은 복잡하지만 시각적 요소는 강력한 감지 기능에 의존하는 경우가 많습니다. 다음과 같은 모델이 아래에서 기본 개체 데이터를 추출하는 방법을 확인할 수 있습니다:

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

실제 애플리케이션

VQA 기술은 기계가 인간과 같은 방식으로 컨텍스트를 이해할 수 있게 함으로써 산업을 혁신하고 있습니다.

  1. 시각 장애인을 위한 보조 기술: 가장 영향력 있는 애플리케이션 중 하나는 접근성 도구입니다. 시각적 추론을 활용하여 시각 장애가 있거나 시력이 낮은 사용자에게 시각 장애가 있거나 시력이 낮은 사용자에게 주변 환경을 설명합니다. 사용자가 식료품 저장실의 사진을 찍고 "이게 수프 토마토 캔인가요? 수프 토마토 캔인가요, 아니면 치킨 누들 캔인가요?"라고 질문하여 일상 생활에서 독립성을 높일 수 있습니다.
  2. 의료 이미지 분석: In 의료 분야의 AI에서 VQA는 다음과 같은 방식으로 전문가를 지원합니다. 지능형 2차 의견 역할을 합니다. 방사선 전문의가 MRI 스캔에 대해 시스템에 다음과 같은 질문을 할 수 있습니다, "이 부위에 골절의 징후가 있습니까?"와 같은 질문을 할 수 있습니다. 아카이브된 연구 PubMed는 이러한 시스템이 어떻게 진단 정확도를 개선하고 정확성을 높이고 임상 워크플로우를 가속화할 수 있다는 점을 강조합니다.
  3. 지능형 감시: 보안 운영자는 VQA를 사용하여 몇 시간 분량의 비디오 영상을 즉시 쿼리할 수 있습니다. 운영자는 피드를 수동으로 시청하는 대신 보안 분야의 AI "자정 이후에 빨간 트럭이 시설에 들어왔나요?"라고 입력하기만 하면 관련 이벤트를 검색할 수 있습니다.

관련 개념과의 관계

VQA를 완전히 이해하려면 다음과 같은 유사한 용어와 구별하는 것이 도움이 됩니다. 유사한 용어와 구별하는 것이 도움이 됩니다:

  • VQA와 이미지 캡션 비교: 이미지 캡션에는 전체 이미지에 대한 일반적인 설명을 생성하는 작업이 포함됩니다(예: "공원에서 놀고 있는 개 공원"). 이와는 대조적으로 VQA는 목표 지향적이며 특정 문의에 대한 답변이므로 보다 구체적인 추론이 필요합니다.
  • VQA 대 시각적 접지: 접지는 텍스트 설명에서 언급된 특정 객체를 찾는 작업입니다(예: "파란색 남자" 주위에 경계 상자를 그리는 것과 같이, "파란색 옷을 입은 남자 셔츠"). VQA는 종종 해당 대상에 대한 질문에 답하기 위한 중간 단계로 접지를 사용합니다.
  • VQA 대 객체 탐지: 다음과 같은 탐지 모델 YOLO11 과 같은 감지 모델은 이미지에 무엇이 있고 어디에 있는지 식별합니다. VQA 는 한 걸음 더 나아가 이러한 객체의 속성과 관계를 이해하여 사용자의 쿼리를 충족시킵니다.

VQA의 개발은 다음과 같은 오픈 소스 프레임워크를 기반으로 합니다. PyTorchTensorFlow와 같은 소스 프레임워크에 의해 구동되고 있으며, 다음과 같은 대규모 언어 모델(LLM)이 비전 파이프라인에 통합되면서 이 비전 파이프라인에 통합되면서 계속 발전하고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기