Yolo 비전 선전
선전
지금 참여하기
용어집

비전 언어 모델 (VLM)

Ultralytics 비전 언어 모델(VLM) Ultralytics 탐구하세요. Ultralytics 활용하여 VQA 및 오픈 어휘 감지를 위해 컴퓨터 비전과 대규모 언어 모델(LLM)을 어떻게 연결하는지 알아보세요.

비전 언어 모델(VLM)은 시각 정보(이미지 또는 동영상)와 텍스트 정보를 동시에 처리하고 해석할 수 있는 인공 지능의 한 유형입니다. 기존 컴퓨터 비전 모델이 픽셀 데이터에만 집중하거나, 대규모 언어 모델(LLM) 이 텍스트만 이해하는 것과 달리, VLM은 이 두 모달리티 간의 격차를 해소합니다. 이미지-텍스트 쌍으로 구성된 방대한 데이터셋으로 훈련함으로써, 이 모델들은 시각적 특징을 언어적 개념과 연관시키는 법을 학습하여 이미지를 설명하고, 시각적 장면에 대한 질문에 답하며, 심지어 "보는 것"을 기반으로 명령을 실행할 수 있습니다.

비전 언어 모델의 작동 원리

기본적으로 VLM은 일반적으로 두 가지 주요 구성 요소로 이루어집니다: 비전 인코더와 텍스트 인코더입니다. 비전 인코더는 이미지를 처리하여 특징 맵과 시각적 표현을 추출하는 반면, 텍스트 인코더는 언어적 입력을 처리합니다. 이러한 서로 다른 데이터 흐름은 크로스 어텐션과 같은 메커니즘을 사용하여 시각적 정보와 텍스트 정보를 공유 임베딩 공간에서 정렬시키기 위해 융합됩니다.

2024년과 2025년의 최근 발전은 단일 트랜스포머 백본이 두 가지 모달리티를 모두 처리하는 더 통합된 아키텍처로 나아가고 있습니다. 예를 들어, Google 2 와 같은 모델은 이러한 스트림을 효과적으로 통합함으로써 복잡한 추론 작업에서 성능을 향상시킬 수 있음을 보여줍니다. 이러한 정렬을 통해 모델은 맥락을 이해할 수 있게 되는데, 예를 들어 "apple"이라는 단어가 식료품점 이미지에서는 과일을 의미하지만 로고에서는 기술 회사를 의미한다는 것을 인식할 수 있습니다.

실제 애플리케이션

시각과 언어를 통해 세상을 이해하는 능력은 다양한 산업 분야에 걸쳐 다채로운 응용 가능성을 열어줍니다:

  • 시각적 질문 답변(VQA): VLM은 의료 진단 분야에서 방사선과 의사를 보조하기 위해 광범위하게 활용됩니다. 의사가 시스템에 "이 엑스레이에 골절이 있나요?"라고 질문하면, 모델이 의료 영상을 분석하여 예비 평가를 제공함으로써 진단 오류를 줄입니다.
  • 스마트 전자상거래 검색: 소매 환경에서 VLM은 사용자가 이미지와 결합된 자연어 설명을 통해 제품을 검색할 수 있게 합니다. 쇼핑객은 유명인의 의상 사진을 업로드하고 "이 패턴이지만 파란색 드레스를 찾아줘"라고 요청할 수 있으며, 시스템은 의미 기반 검색을 통해 정확한 일치 항목을 검색합니다.
  • 자동 캡션 및 접근성: VLM은 웹상의 이미지에 대한 설명성 대체 텍스트를 자동 생성하여, 스크린 리더에 의존하는 시각 장애인 사용자에게 디지털 콘텐츠를 보다 접근 가능하게 합니다.

VLMs와 관련 개념의 구분

VLMs의 특정 역할을 이해하기 위해 다른 AI 범주와 구분하는 것이 유용합니다:

  • VLM 대 LLM: 대규모 언어 모델 (예: GPT-4 텍스트 전용 버전)은 텍스트 데이터만 처리합니다. 창의적인 이야기나 코드를 생성할 수는 있지만, 이미지를 "볼" 수는 없습니다. VLM은 LLM에 효과적으로 시각 기능을 부여합니다.
  • VLM 대 객체 탐지: 기존 객체 탐지 모델(예: 초기 YOLO 버전)은 객체의 위치와 속한 클래스 (예: "자동차: 99%") 식별합니다. VLM은 한 걸음 더 나아가 "소방용 수돗물 옆에 주차된 빨간색 스포츠카"와 같은 관계와 속성을 이해합니다.
  • VLM 대 다중 모달 AI: 다중 모달 AI는 더 포괄적인 상위 개념입니다. 모든 VLM은 다중 모달(시각과 언어를 결합)이지만, 모든 다중 모달 모델이 VLM은 아닙니다. 일부는 음성과 텍스트(음성-텍스트 변환 등) 또는 영상과 센서 데이터를 언어 구성 요소 없이 결합할 수 있습니다.

YOLO 이용한 오픈 어휘물체탐지

현대식 VLMs는 사전 정의된 클래스 대신 자유 형식 텍스트 프롬프트를 사용해 detect 수 있는 "개방형 어휘" 탐지를 지원합니다. 이는 Ultralytics YOLO 같은 모델의 핵심 기능으로, 재훈련 없이 동적 클래스 정의를 가능하게 합니다.

다음 예는 ultralytics detect 객체를 detect 패키지 텍스트로 설명된:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

과제 및 향후 방향

비전 언어 모델은 강력하지만 상당한 과제에 직면해 있습니다. 주요 문제 중 하나는 환각 현상인데, 이는 모델이 실제로 존재하지 않는 이미지 내의 객체나 텍스트를 확신하며 설명하는 경우를 말합니다. 연구자들은 인간 피드백 기반 강화 학습(RLHF)과 같은 기법을 통해 정확성과 근거성을 개선하기 위해 적극적으로 연구하고 있습니다.

또 다른 과제는 계산 비용입니다. 이러한 대규모 모델을 훈련하려면 상당한 GPU 필요합니다. 그러나 Ultralytics 같은 효율적인 아키텍처의 출시로 에지 디바이스에 고급 비전 기능을 적용하는 데 도움이 되고 있습니다. 앞으로 VLM이 로봇 에이전트에서 핵심적인 역할을 수행하여 로봇이 복잡한 언어 명령을 기반으로 물체를 탐색하고 조작할 수 있게 될 것으로 기대됩니다.

이론적 기반에 관심이 있는 분들을 위해, OpenAI의 원본 CLIP 논문은 대비적 언어-이미지 사전 훈련에 대한 탁월한 통찰력을 제공합니다. 또한 이러한 아키텍처의 급속한 발전을 추적하려면 CVPR 학회 논문을 꾸준히 살펴보는 것이 필수적입니다. 자체 비전 모델 훈련을 실험하려면 데이터셋 관리와 모델 배포를 효율적으로 처리할 수 있는 Ultralytics 활용할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기