용어집

시각적 질문 답변(VQA)

시각적 질문 답변(VQA): 멀티모달 AI가 컴퓨터 비전과 NLP를 결합하여 이미지 기반 질문에 답변하는 방법과 주요 방법 및 실제 사용 사례에 대해 알아보세요.

시각적 질의응답(VQA)은 인공지능(AI) 분야의 정교한 다분야 작업으로 인공 지능(AI) 내에서 컴퓨터 비전(CV) 과 자연어 처리(NLP) 사이의 간극을 메우는 작업입니다. 기존의 컴퓨터 비전 시스템이 물체를 인식하거나 이미지를 분류하는 데 중점을 두었다면, VQA 시스템은 이미지의 시각적 콘텐츠를 기반으로 특정 질문에 대한 자연어 답변을 제공하도록 설계되었습니다. 예를 들어 거리 풍경 사진과 "왼쪽에 있는 차는 무슨 색인가요?"라는 질문이 주어지면 VQA 모델은 이미지를 분석하여 이미지를 분석하고 특정 객체를 찾아 속성을 결정한 후 올바른 텍스트 응답을 작성합니다. 이러한 다양한 데이터 양식에 걸쳐 추론하는 능력 덕분에 VQA는 고급 멀티모달 AI의 고급 멀티모달 AI의 기본 구성 요소입니다.

시각적 질문 답변의 작동 방식

VQA 시스템의 아키텍처는 일반적으로 특징 추출, 멀티모달 융합, 답변 생성의 세 가지 주요 단계로 구성됩니다. 답변 생성. 처음에 시스템은 딥러닝 모델을 사용하여 입력을 처리합니다. 다음과 같은 비전 모델이 사용됩니다. 컨볼루션 신경망(CNN) 또는 비전 트랜스포머(ViT)와 같은 비전 모델은 이미지에서 이미지에서 시각적 특징을 추출합니다. 동시에 텍스트 질문은 토큰화되고 언어 모델을 사용하여 임베딩으로 변환합니다.

중요한 단계는 이 두 가지 정보 스트림을 융합하는 것입니다. 최신 시스템은 종종 주의 메커니즘을 활용하기도 합니다. 연구 논문 "주의력만 있으면 된다"에서 널리 알려진 개념인 주의 메커니즘을 활용하여 텍스트 단어를 이미지의 해당 영역과 정렬합니다. 이를 통해 모델은 그림의 관련 부분을 "보기" 위해 사진(예: 자동차)을 "색상"이라는 단어를 처리할 때. 마지막으로 모델이 답을 예측합니다, 가능한 답변 세트에 대한 전문 분류 작업으로 문제를 효과적으로 처리합니다. 이러한 모델을 훈련하려면 다음과 같은 방대한 주석이 달린 훈련 데이터가 필요합니다. 수백만 개의 이미지 질문-답변이 포함된 벤치마크 VQA 데이터세트와 같은 방대한 주석이 달린 학습 데이터 트리플렛.

VQA 시스템은 복잡하지만 시각적 요소는 강력한 감지 기능에 의존하는 경우가 많습니다. 다음과 같은 모델이 아래에서 기본 개체 데이터를 추출하는 방법을 확인할 수 있습니다:

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

실제 애플리케이션

VQA 기술은 기계가 인간과 같은 방식으로 컨텍스트를 이해할 수 있게 함으로써 산업을 혁신하고 있습니다.

시각 장애인을 위한 보조 기술: 가장 영향력 있는 애플리케이션 중 하나는 접근성 도구입니다. 시각적 추론을 활용하여 시각 장애가 있거나 시력이 낮은 사용자에게 시각 장애가 있거나 시력이 낮은 사용자에게 주변 환경을 설명합니다. 사용자가 식료품 저장실의 사진을 찍고 "이게 수프 토마토 캔인가요? 수프 토마토 캔인가요, 아니면 치킨 누들 캔인가요?"라고 질문하여 일상 생활에서 독립성을 높일 수 있습니다.
의료 이미지 분석: In 의료 분야의 AI에서 VQA는 다음과 같은 방식으로 전문가를 지원합니다. 지능형 2차 의견 역할을 합니다. 방사선 전문의가 MRI 스캔에 대해 시스템에 다음과 같은 질문을 할 수 있습니다, "이 부위에 골절의 징후가 있습니까?"와 같은 질문을 할 수 있습니다. 아카이브된 연구 PubMed는 이러한 시스템이 어떻게 진단 정확도를 개선하고 정확성을 높이고 임상 워크플로우를 가속화할 수 있다는 점을 강조합니다.
지능형 감시: 보안 운영자는 VQA를 사용하여 몇 시간 분량의 비디오 영상을 즉시 쿼리할 수 있습니다. 운영자는 피드를 수동으로 시청하는 대신 보안 분야의 AI "자정 이후에 빨간 트럭이 시설에 들어왔나요?"라고 입력하기만 하면 관련 이벤트를 검색할 수 있습니다.

시각적 질문 답변(VQA)

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

시각적 질문 답변의 작동 방식

실제 애플리케이션

관련 개념과의 관계

이 카테고리에서 더 읽어보기

노이즈 제거를 위한 자기 지도 학습: 단계별 분석

미래의 물체 감지 트렌드: 주목해야 할 7가지 주요 사항

Ultralytics YOLO 모델을 통한 차량 재식별 강화

Ultralytics 커뮤니티 가입