Yolo 비전 선전
선전
지금 참여하기
용어집

시각적 질문 답변(VQA)

시각적 질문 답변(VQA): 멀티모달 AI가 컴퓨터 비전과 NLP를 결합하여 이미지 기반 질문에 답변하는 방법과 주요 방법 및 실제 사용 사례에 대해 알아보세요.

시각적 질문 답변(VQA)은 컴퓨터 비전(CV)자연어 처리(NLP)의 교차점에 위치한 도전적인 다학제적 과제입니다. 표준 이미지 분류와 달리, 시스템이 단순히 사진에 레이블을 할당하는 것과는 달리, VQA 시스템은 자연어를 사용하여 이미지에 대한 개방형 질문에 답하도록 설계되었습니다. 예를 들어, 거리 풍경 사진이 제시되면 사용자는 "소화전 옆에 있는 차 색깔이 뭐예요?"라고 질문할 수 있습니다. 정확히 답변하려면 AI는 질문을 이해하고, 언급된 객체(차, 소화전)를 찾아내며, 그들의 공간적 관계(옆에)를 파악하고, 특정 속성(색깔)을 식별해야 합니다.

이러한 능력은 VQA를 현대 다중 모드 AI의 핵심으로 만듭니다. 이는 모델이 서로 다른 유형의 데이터를 동시에 추론해야 하기 때문입니다. 시스템은 일반적으로 시각적 특징을 해석하기 위한 비전 인코더(예: 컨볼루션 신경망(CNN) 또는비전 트랜스포머(ViT ))와 언어적 질의를 처리하기 위한 텍스트 인코더를 사용합니다. 이러한 입력은 융합 기법을 통해 결합되며, 관련성에 집중하기 위해 종종 어텐션 메커니즘을 활용합니다. 또는 비전 트랜스포머(ViT)와 같은 비전 인코더를 사용하여 시각적 특징을 해석하고, 텍스트 인코더를 사용하여 언어적 질의를 처리합니다. 그런 다음 이러한 입력들은 융합 기법을 사용하여 결합되며, 종종 어텐션 메커니즘을 활용하여 질문 속 단어에 대응하는 이미지의 관련 부분에 집중합니다.

실제 애플리케이션

시각적 데이터를 동적으로 쿼리할 수 있는 능력은 다양한 산업 분야에서 상당한 가능성을 열어줍니다.

  • 시각 장애인을 위한 보조 기술: VQA는 Be My Eyes와 같은 접근성 앱에 필수적인 기술입니다. VQA를 통합함으로써, 이러한 애플리케이션은 사용자가 스마트폰 카메라를 주변 환경에 향하게 하고 "이 병은 샴푸인가요, 컨디셔너인가요?" 또는 "횡단보도 신호등이 초록색인가요?"와 같은 질문을 할 수 있게 합니다. 시스템은 실시간 영상 피드를 처리하고 음성으로 답변을 제공하여 더 큰 독립성을 촉진합니다.
  • 지능형 감시 및 보안: 보안 분야 인공지능(AI)에서 운영자는 종종 수 시간 분량의 영상을 검토해야 합니다. 수동 검토 대신 VQA(시각적 질의 응답) 기반 시스템을 통해 보안 담당자는 "자정 이후 적색 트럭이 하역장에 진입했는가?" 또는 "안전모를 착용한 인원은 몇 명인가?"와 같은 자연어 질의를 할 수 있습니다. 이는 이상 탐지 프로세스를 간소화하고 대응 시간을 단축시킵니다.

VQA가 객체 탐지와 어떻게 관련되는가

종단간 시각-언어 추론 (VQA) 모델이 존재하지만, 많은 실용적인 파이프라인은 기초 단계로 견고한 객체 탐지를 의존합니다. 탐지기는 객체를 식별하고 위치를 파악하여 답변 엔진에 필요한 맥락을 제공합니다.

예를 들어, YOLO26을 사용하여 객체 클래스와 위치를 추출한 후 이를 언어 모델이나 특수한 추론 모듈에 입력할 수 있습니다.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

VQA와 관련 용어의 구분

VQA의 특정 역할을 이해하기 위해서는 다른 시각-언어 작업과 구별하는 것이 중요하다.

  • VQA 대 이미지 캡셔닝: 이미지 캡셔닝은 전체 이미지에 대한 일반적인 설명(예: "잔디밭에서 노는 개")을 생성합니다. VQA는 보다 구체적이고 상호작용적이며, 광범위한 요약보다는 특정 질문에 답합니다.
  • VQA 대 시각적 그라운딩: 시각적 그라운딩은 구문에서 언급된 특정 객체를 찾는 데 초점을 맞춥니다(예: "키 큰 남자"를 둘러싸는 바운딩 박스 그리기). VQA는 한 걸음 더 나아가 객체를 찾는 것뿐만 아니라 그 속성이나 관계를 분석하여 질문에 답합니다.
  • VQA 대 광학 문자 인식(OCR): OCR은 이미지에서 텍스트를 추출합니다. VQA가 "표지판에 뭐라고 쓰여 있나요?"와 같은 질문에 답하기 위해 OCR을 사용할 수는 있지만, VQA는 단순히 텍스트를 읽는 것을 넘어 사물, 행동, 장면을 이해하는 더 광범위한 능력을 포함합니다.

현대 연구에서는 VQA 데이터셋과 같은 대규모 데이터셋을 활용해 이러한 모델을 훈련시키며, 수백만 개의 이미지-질문 쌍을 통해 모델의 일반화 능력을 향상시킵니다. 대규모 언어 모델(LLM) 이 지속적으로 발전함에 따라 VQA 기능이 기초 모델에 직접 통합되는 사례가 증가하고 있으며, 이로 인해 순수 시각 과제와 순수 언어 과제 간의 경계가 점차 모호해지고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기