YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Vision AI

Vision Language Model의 이해 및 응용

Vision Language Model의 개념과 작동 원리, 그리고 다양한 AI 응용 분야에 대해 알아보세요. 이러한 모델이 시각적 능력과 언어 능력을 어떻게 결합하는지 확인해 보시기 바랍니다.

ABAbirami Vina6 min read
이미지와 텍스트 이해를 결합하는 Vision Language Model

이전 기사에서 우리는 GPT-4o가 어떻게 이미지를 이해하고 언어로 설명할 수 있는지 살펴보았습니다. 또한 Google Gemini나 Claude 3와 같은 다른 새로운 모델에서도 이러한 기능을 확인하고 있습니다. 오늘은 이 개념을 더 깊이 파고들어, 시각 언어 모델(Vision Language Models)이 어떻게 작동하며 시각 데이터와 텍스트 데이터를 어떻게 결합하는지 설명하겠습니다.

이러한 모델들은 사진에 대한 상세한 캡션을 생성하고, 이미지에 관한 질문에 답하며, 텍스트 설명을 바탕으로 새로운 시각적 콘텐츠를 생성하는 등 인상적인 작업을 수행할 수 있습니다. 시각 정보와 언어 정보를 원활하게 통합함으로써, 시각 언어 모델은 우리가 기술과 상호작용하고 세상을 이해하는 방식을 변화시키고 있습니다.

Link to this section시각 언어 모델의 작동 방식#

시각 언어 모델(VLM)이 사용될 수 있는 곳을 살펴보기 전에, 이것이 무엇이며 어떻게 작동하는지 먼저 알아보겠습니다. VLM은 이미지와 텍스트를 모두 처리하기 위해 시각 모델과 언어 모델의 능력을 결합한 고급 AI 모델입니다. 이러한 모델은 사진과 그에 대한 텍스트 설명을 입력받아 둘 사이의 연결 고리를 학습합니다. 모델의 시각 부분은 이미지에서 세부 정보를 포착하고, 언어 부분은 텍스트를 이해합니다. 이러한 협업을 통해 VLM은 이미지와 텍스트를 모두 이해하고 분석할 수 있습니다.

시각 언어 모델의 주요 기능은 다음과 같습니다:

  • 이미지 캡셔닝: 이미지 콘텐츠를 기반으로 설명 텍스트를 생성합니다.
  • 시각 질의응답(VQA): 이미지의 내용과 관련된 질문에 답변합니다.
  • 텍스트-투-이미지 생성: 텍스트 설명을 바탕으로 이미지를 생성합니다.
  • 이미지-텍스트 검색: 주어진 텍스트 쿼리에 맞는 이미지를 찾거나 그 반대 과정을 수행합니다.
  • 멀티모달 콘텐츠 생성: 이미지와 텍스트를 결합하여 새로운 콘텐츠를 생성합니다.
  • 장면 이해 및 객체 탐지: 이미지 내의 객체와 세부 정보를 식별하고 분류합니다.

시각 언어 모델의 기능 예시

그림 1. 시각 언어 모델의 기능 예시.

다음으로, CLIP, SimVLM, VisualGPT와 같은 잘 알려진 모델들이 사용하는 일반적인 VLM 아키텍처와 학습 기술을 살펴보겠습니다.

Link to this section대조 학습(Contrastive Learning)#

대조 학습은 데이터 포인트 간의 차이를 비교하여 모델이 학습하도록 돕는 기술입니다. 이는 인스턴스가 얼마나 유사하거나 다른지를 계산하여 이러한 차이를 측정하는 대조 손실(contrastive loss)을 최소화하는 것을 목표로 합니다. 이는 소수의 레이블이 지정된 예제가 레이블이 없는 새로운 데이터를 분류하도록 안내하는 준지도 학습에서 특히 유용합니다. 예를 들어, 고양이가 어떻게 생겼는지 이해하기 위해 모델은 유사한 고양이 이미지와 개 이미지를 비교합니다. 얼굴 구조, 체구, 털과 같은 특징을 식별함으로써 대조 학습 기술은 고양이와 개를 구분할 수 있습니다.

대조 학습 작동 방식 다이어그램

그림 2. 대조 학습의 작동 방식.

CLIP은 대조 학습을 사용하여 텍스트 설명과 이미지를 일치시키는 시각 언어 모델입니다. 세 가지 간단한 단계로 작동합니다. 첫째, 텍스트와 이미지를 모두 이해하는 모델의 부분을 학습시킵니다. 둘째, 데이터셋의 카테고리를 텍스트 설명으로 변환합니다. 셋째, 주어진 이미지에 가장 잘 맞는 설명을 식별합니다. 이 방법 덕분에 CLIP 모델은 특별히 학습되지 않은 작업에 대해서도 정확한 예측을 할 수 있습니다.

Link to this sectionPrefixLM#

PrefixLM은 모델 학습에 사용되는 자연어 처리(NLP) 기술입니다. 문장의 일부(접두사)로 시작하여 다음 단어를 예측하는 법을 학습합니다. 시각 언어 모델에서 PrefixLM은 이미지와 주어진 텍스트 조각을 바탕으로 다음 단어를 예측하도록 모델을 돕습니다. 이 기술은 이미지를 작은 패치로 나누어 각 패치가 이미지의 일부를 나타내도록 하고 이를 순차적으로 처리하는 Vision Transformer(ViT)를 사용합니다.

PrefixLM 기술을 사용한 VLM 학습 예시

그림 3. PrefixLM 기술을 사용하는 VLM 학습 예시.

SimVLM은 PrefixLM 학습 기술을 사용하는 VLM입니다. 초기 모델들에 비해 더 단순한 Transformer 아키텍처를 사용하지만 다양한 테스트에서 더 나은 결과를 달성합니다. 이 모델의 아키텍처는 Transformer 인코더를 사용하여 이미지와 텍스트 접두사를 연결하는 법을 학습하고, Transformer 디코더를 사용하여 텍스트를 생성하는 과정을 포함합니다.

Link to this section교차 어텐션(Cross-Attention)을 통한 멀티모달 퓨징#

교차 어텐션을 통한 멀티모달 퓨징은 사전 학습된 시각 언어 모델이 시각 데이터를 이해하고 처리하는 능력을 향상시키는 기술입니다. 이는 모델에 교차 어텐션 레이어를 추가하여 시각 정보와 텍스트 정보에 동시에 주의를 기울일 수 있도록 함으로써 작동합니다.

작동 방식은 다음과 같습니다:

  • 이미지 내의 주요 객체가 식별되고 강조 표시됩니다.
  • 강조 표시된 객체는 시각 인코더에 의해 처리되어, 모델이 이해할 수 있는 형식으로 시각 정보를 변환합니다.
  • 시각 정보는 디코더로 전달되며, 디코더는 사전 학습된 언어 모델의 지식을 사용하여 이미지를 해석합니다.

VisualGPT는 이 기술을 사용하는 모델의 좋은 예입니다. 이 모델은 사라지는 기울기(vanishing gradient)라고 불리는 일반적인 문제를 피하도록 돕는 SRAU(self-resurrecting activation unit)라는 특별한 기능을 포함합니다. 사라지는 기울기 문제는 모델이 학습 중에 중요한 정보를 잃게 만들 수 있지만, SRAU는 모델의 성능을 강력하게 유지합니다.

VisualGPT 모델 아키텍처 다이어그램

그림 4. VisualGPT 모델 아키텍처.

Link to this section시각 언어 모델의 응용 분야#

시각 언어 모델은 다양한 산업에 영향을 미치고 있습니다. 전자상거래 플랫폼 개선부터 인터넷 접근성 향상에 이르기까지, VLM의 잠재적 활용 분야는 매우 흥미롭습니다. 이러한 응용 분야 중 일부를 살펴보겠습니다.

Link to this section제품 설명 생성#

온라인 쇼핑 시 각 제품에 대한 상세한 설명을 볼 수 있지만, 이러한 설명을 만드는 것은 시간이 많이 걸릴 수 있습니다. VLM은 이러한 설명을 생성하는 과정을 자동화하여 프로세스를 간소화합니다. 온라인 소매업체는 시각 언어 모델을 사용하여 제품 이미지에서 상세하고 정확한 설명을 즉시 생성할 수 있습니다.

고품질의 제품 설명은 검색 엔진이 설명에 언급된 특정 속성을 기반으로 제품을 식별하도록 돕습니다. 예를 들어, "긴 소매"와 "면 넥"이 포함된 설명은 고객이 "긴 소매 면 셔츠"를 더 쉽게 찾을 수 있도록 합니다. 또한 고객이 원하는 것을 빠르게 찾을 수 있도록 하여 매출과 고객 만족도를 높입니다.

AI 생성 제품 설명 예시

그림 5. AI 생성 제품 설명의 예시.

생성형 AI 모델인 BLIP-2는 이미지에서 제품 속성을 직접 예측할 수 있는 정교한 VLM의 예입니다. BLIP-2는 전자상거래 제품을 정확하게 이해하고 설명하기 위해 여러 구성 요소를 사용합니다. 먼저 이미지 인코더를 사용하여 제품의 시각적 측면을 처리하고 이해합니다. 그런 다음, 질의 Transformer(querying transformer)가 특정 질문이나 작업의 맥락에서 이 시각 정보를 해석합니다. 마지막으로, 대규모 언어 모델이 상세하고 정확한 제품 설명을 생성합니다.

Link to this section인터넷 접근성 향상#

시각 언어 모델은 특히 시각 장애인을 위한 이미지 캡셔닝을 통해 인터넷을 더욱 접근하기 쉬운 공간으로 만들 수 있습니다. 전통적으로 사용자는 웹사이트와 소셜 미디어에 게시된 시각적 콘텐츠에 대한 설명을 직접 입력해야 합니다. 예를 들어 Instagram에 게시물을 올릴 때 스크린 리더를 위한 대체 텍스트를 추가할 수 있습니다. 그러나 VLM은 이 과정을 자동화할 수 있습니다.

VLM이 소파에 앉아 있는 고양이 이미지를 보면 "소파에 앉아 있는 고양이"라는 캡션을 생성하여 시각 장애인 사용자에게 장면을 명확하게 전달할 수 있습니다. VLM은 몇 가지 이미지-캡션 쌍을 통해 학습하는 퓨샷 프롬프팅(few-shot prompting)과 복잡한 장면을 논리적으로 분해하도록 돕는 사고의 연쇄 프롬프팅(chain-of-thought prompting)과 같은 기술을 사용합니다. 이러한 기술은 생성된 캡션을 더 일관되고 상세하게 만듭니다.

AI를 사용한 이미지 캡션 생성

그림 6. AI를 사용하여 이미지 캡션을 생성하는 예시.

이러한 목적을 위해 Chrome의 "Get Image Descriptions from Google" 기능은 대체 텍스트가 없는 이미지에 대해 자동으로 설명을 생성합니다. 이러한 AI 생성 설명이 사람이 작성한 것만큼 상세하지는 않을 수 있지만, 여전히 가치 있는 정보를 제공합니다.

Link to this section시각 언어 모델의 이점과 한계#

시각 언어 모델(VLM)은 시각 데이터와 텍스트 데이터를 결합하여 많은 이점을 제공합니다. 주요 이점은 다음과 같습니다:

  • 더 나은 인간-기계 상호작용: 시스템이 시각적 및 텍스트적 입력을 모두 이해하고 응답할 수 있게 하여 가상 비서, 챗봇, 로봇 공학을 개선합니다.
  • 고급 진단 및 분석: 의료 분야에서 이미지를 분석하고 설명을 생성하여 의료 전문가에게 2차 소견을 제공하고 이상 징후를 탐지하는 데 도움을 줍니다.
  • 대화형 스토리텔링 및 엔터테인먼트: 시각적 및 텍스트적 입력을 결합하여 몰입감 있는 내러티브를 생성하고 게임 및 가상 현실에서의 사용자 경험을 향상합니다.

인상적인 기능에도 불구하고 시각 언어 모델에는 특정 한계가 있습니다. VLM과 관련하여 염두에 두어야 할 몇 가지 사항은 다음과 같습니다:

  • 높은 컴퓨팅 요구 사항: VLM을 학습시키고 배포하려면 상당한 컴퓨팅 자원이 필요하므로 비용이 많이 들고 접근성이 떨어집니다.
  • 데이터 의존성 및 편향성: VLM은 다양하지 않거나 편향된 데이터셋으로 학습될 경우 편향된 결과를 생성할 수 있으며, 이는 고정관념과 잘못된 정보를 영속화할 수 있습니다.
  • 제한된 맥락 이해: VLM은 더 큰 그림이나 맥락을 이해하는 데 어려움을 겪을 수 있으며, 지나치게 단순화되거나 잘못된 출력을 생성할 수 있습니다.

Link to this section주요 요점#

시각 언어 모델은 전자상거래 및 의료와 같은 많은 분야에서 엄청난 잠재력을 가지고 있습니다. 시각 데이터와 텍스트 데이터를 결합함으로써 혁신을 주도하고 산업을 변화시킬 수 있습니다. 그러나 이러한 기술이 공정하게 사용되도록 책임감 있고 윤리적으로 개발하는 것이 필수적입니다. VLM이 계속 발전함에 따라 이미지 기반 검색 및 보조 기술과 같은 작업이 향상될 것입니다.

AI에 대해 계속 배우고 싶다면 저희 커뮤니티에 참여하세요! 저희 GitHub 저장소를 탐색하여 우리가 어떻게 AI를 사용하여 제조의료와 같은 산업에서 혁신적인 솔루션을 만들고 있는지 확인해보세요. 🚀

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델로 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 더 스마트한 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화를 향상시킵니다.

더 알아보기
Real-time AI that works with your team

소매 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링 기능을 제공합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매 분야를 재구성하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 제공합니다.

더 알아보기
Real-time AI that works with your team

로보틱스에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로보틱스 분야의 Vision AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. Vision AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류를 간소화하십시오. 비전 AI는 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링을 가능하게 합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.