비전 AI

비전 언어 모델과 그 응용 분야 이해

비전 언어 모델, 작동 원리 및 AI에서의 다양한 응용 분야에 대해 배워보십시오. 이 모델들이 어떻게 시각적 기능과 언어 기능을 결합하는지 알아보십시오.

ABAbirami Vina6 min readJuly 5, 2024

이전 기사에서 우리는 GPT-4o가 어떻게 이미지를 이해하고 언어로 설명할 수 있는지 살펴보았습니다. 또한 Google Gemini나 Claude 3와 같은 다른 새로운 모델들에서도 이러한 기능을 확인할 수 있습니다. 오늘은 이 개념을 더 깊이 파고들어, 시각 언어 모델이 어떻게 작동하며 시각 데이터와 텍스트 데이터를 어떻게 결합하는지 설명하겠습니다.

이러한 모델은 사진에 대한 상세한 캡션을 생성하고, 이미지에 관한 질문에 답변하며, 텍스트 설명을 바탕으로 새로운 시각적 콘텐츠를 생성하는 등 다양한 인상적인 작업을 수행하는 데 사용될 수 있습니다. 시각 정보와 언어 정보를 원활하게 통합함으로써, 시각 언어 모델은 우리가 기술과 상호작용하고 우리 주변의 세상을 이해하는 방식을 변화시키고 있습니다.

Link to this section시각 언어 모델의 작동 원리#

시각 언어 모델(VLM)을 어디에 활용할 수 있는지 살펴보기 전에, 이것이 무엇이며 어떻게 작동하는지 먼저 알아보겠습니다. VLM은 시각 모델과 언어 모델의 능력을 결합하여 이미지와 텍스트를 모두 처리하는 고급 AI 모델입니다. 이 모델들은 사진과 그에 대한 텍스트 설명을 입력받아 두 데이터 간의 연관성을 학습합니다. 모델의 시각 부분은 이미지에서 세부 정보를 포착하고, 언어 부분은 텍스트를 이해합니다. 이러한 협업을 통해 VLM은 이미지와 텍스트를 모두 이해하고 분석할 수 있습니다.

시각 언어 모델의 주요 기능은 다음과 같습니다.

이미지 캡셔닝(Image Captioning): 이미지의 콘텐츠를 바탕으로 설명 텍스트를 생성합니다.
시각적 질의 응답(VQA): 이미지의 콘텐츠와 관련된 질문에 답변합니다.
텍스트-투-이미지 생성: 텍스트 설명을 바탕으로 이미지를 생성합니다.
이미지-텍스트 검색: 주어진 텍스트 쿼리에 대해 관련 이미지를 찾거나 그 반대의 작업을 수행합니다.
멀티모달 콘텐츠 생성: 이미지와 텍스트를 결합하여 새로운 콘텐츠를 생성합니다.
장면 이해 및 객체 탐지: 이미지 내의 객체와 세부 정보를 식별하고 분류합니다.

비전 언어 모델의 기능 예시

그림 1. 시각 언어 모델의 기능 예시.

다음으로, CLIP, SimVLM, VisualGPT와 같은 유명한 모델에서 사용되는 일반적인 VLM 아키텍처와 학습 기법을 살펴보겠습니다.

Link to this section대조 학습(Contrastive learning)#

대조 학습은 데이터 포인트 간의 차이를 비교하여 모델이 학습하도록 돕는 기법입니다. 이는 인스턴스들이 얼마나 유사하거나 다른지를 계산하여 그 차이를 측정하는 대조 손실(contrastive loss)을 최소화하는 것을 목표로 합니다. 이는 소수의 라벨링된 예제를 통해 모델이 보지 못한 새로운 데이터를 라벨링하도록 유도하는 준지도 학습에서 특히 유용합니다. 예를 들어, 고양이가 어떻게 생겼는지 이해하기 위해 모델은 고양이 이미지와 개 이미지를 비교합니다. 얼굴 구조, 체구, 털과 같은 특징을 식별함으로써 대조 학습 기법은 고양이와 개를 구별할 수 있습니다.

대조 학습 작동 방식 도식

그림 2. 대조 학습의 작동 원리.

CLIP은 대조 학습을 사용하여 텍스트 설명과 이미지를 일치시키는 시각 언어 모델입니다. 이 모델은 세 가지 간단한 단계로 작동합니다. 첫째, 텍스트와 이미지를 모두 이해하는 모델의 파트들을 학습시킵니다. 둘째, 데이터셋의 카테고리를 텍스트 설명으로 변환합니다. 셋째, 주어진 이미지에 가장 잘 맞는 설명을 식별합니다. 이러한 방식 덕분에 CLIP 모델은 별도로 학습하지 않은 작업에 대해서도 정확한 예측을 수행할 수 있습니다.

Link to this sectionPrefixLM#

PrefixLM은 모델 학습에 사용되는 자연어 처리(NLP) 기법입니다. 문장의 일부(접두사, prefix)로 시작하여 다음 단어를 예측하는 법을 학습합니다. 시각 언어 모델에서 PrefixLM은 이미지와 주어진 텍스트를 기반으로 다음 단어를 예측하도록 돕습니다. 이는 이미지를 작은 패치로 나누어 각 패치를 이미지의 일부로 표현하고 순차적으로 처리하는 비전 트랜스포머(ViT)를 사용합니다.

PrefixLM 기술을 사용한 VLM 학습 예시

그림 3. PrefixLM 기법을 사용하는 VLM 학습 예시.

SimVLM은 PrefixLM 학습 기법을 사용하는 VLM입니다. 이전 모델들에 비해 더 단순한 트랜스포머 아키텍처를 사용하면서도 다양한 테스트에서 더 나은 결과를 달성합니다. 이 모델의 아키텍처는 트랜스포머 인코더를 사용하여 이미지와 텍스트 접두사를 연결하도록 학습하고, 트랜스포머 디코더를 사용하여 텍스트를 생성하는 과정을 포함합니다.

Link to this section교차 주의(Cross-Attention)를 통한 멀티모달 퓨징#

교차 주의를 통한 멀티모달 퓨징은 사전 학습된 시각 언어 모델이 시각 데이터를 이해하고 처리하는 능력을 향상시키는 기법입니다. 이 기법은 모델에 교차 주의 레이어를 추가하여 시각 정보와 텍스트 정보를 동시에 주의 깊게 다룰 수 있도록 합니다.

작동 방식은 다음과 같습니다:

이미지 내의 주요 객체가 식별되고 강조 표시됩니다.
강조 표시된 객체는 시각 인코더에 의해 처리되며, 시각 정보를 모델이 이해할 수 있는 형식으로 변환합니다.
시각 정보는 디코더로 전달되며, 디코더는 사전 학습된 언어 모델의 지식을 사용하여 이미지를 해석합니다.

VisualGPT는 이 기법을 사용하는 좋은 예입니다. 이 모델은 자기 부활 활성화 유닛(SRAU)이라는 특수한 기능을 포함하고 있는데, 이는 모델이 '소실 기울기(vanishing gradients)'라고 하는 일반적인 문제를 피하도록 돕습니다. 소실 기울기는 학습 중에 모델이 중요한 정보를 잃게 만들 수 있지만, SRAU는 모델의 성능을 강력하게 유지해 줍니다.

VisualGPT 모델 아키텍처 도식

그림 4. VisualGPT 모델 아키텍처.

Link to this section시각 언어 모델의 응용#

시각 언어 모델은 다양한 산업 분야에 영향을 미치고 있습니다. 이커머스 플랫폼 향상부터 인터넷 접근성 개선에 이르기까지, VLM의 잠재적 활용 분야는 매우 흥미롭습니다. 이러한 응용 사례 중 일부를 살펴보겠습니다.

Link to this section제품 설명 생성#

온라인 쇼핑을 할 때 각 제품에 대한 상세한 설명을 볼 수 있지만, 이러한 설명을 만드는 것은 시간이 많이 걸리는 작업입니다. VLM은 이러한 설명을 자동으로 생성함으로써 프로세스를 효율화합니다. 온라인 소매업체는 시각 언어 모델을 사용하여 제품 이미지로부터 상세하고 정확한 설명을 직접 생성할 수 있습니다.

고품질의 제품 설명은 검색 엔진이 설명에 언급된 특정 속성을 기반으로 제품을 식별하도록 돕습니다. 예를 들어, "긴 소매"와 "면 소재 목 부분"이 포함된 설명은 고객이 "긴 소매 면 셔츠"를 더 쉽게 찾을 수 있도록 합니다. 또한 고객이 원하는 것을 빠르게 찾을 수 있도록 도와 결과적으로 매출과 고객 만족도를 높입니다.

AI로 생성된 제품 설명 예시

그림 5. AI 생성 제품 설명의 예시.

생성형 AI 모델인 BLIP-2는 이미지로부터 제품 속성을 직접 예측할 수 있는 정교한 VLM의 예입니다. BLIP-2는 이커머스 제품을 정확하게 이해하고 설명하기 위해 여러 구성 요소를 사용합니다. 먼저 이미지 인코더를 통해 제품의 시각적 측면을 처리하고 이해합니다. 그런 다음 쿼리 트랜스포머가 특정 질문이나 작업의 맥락에서 이 시각적 정보를 해석합니다. 마지막으로 대규모 언어 모델이 상세하고 정확한 제품 설명을 생성합니다.

Link to this section인터넷 접근성 향상#

시각 언어 모델은 특히 시각 장애인을 위한 이미지 캡셔닝을 통해 인터넷을 더욱 접근하기 쉽게 만들 수 있습니다. 전통적으로 사용자는 웹사이트나 소셜 미디어의 시각적 콘텐츠에 대한 설명을 직접 입력해야 했습니다. 예를 들어 Instagram에 게시물을 올릴 때 스크린 리더를 위한 대체 텍스트를 추가할 수 있습니다. 그러나 VLM은 이러한 프로세스를 자동화할 수 있습니다.

VLM이 소파에 앉아 있는 고양이 이미지를 보면 "소파에 앉아 있는 고양이"라는 캡션을 생성하여 시각 장애인 사용자에게 장면을 명확하게 전달할 수 있습니다. VLM은 이미지-캡션 쌍의 몇 가지 예제로부터 학습하는 few-shot 프롬프팅이나 복잡한 장면을 논리적으로 분석하도록 돕는 chain-of-thought 프롬프팅과 같은 기법을 사용합니다. 이러한 기법들은 생성된 캡션을 더욱 일관되고 상세하게 만듭니다.

AI를 사용하여 이미지 캡션 생성하기

그림 6. AI를 사용하여 이미지 캡션을 생성하는 모습.

이러한 목적을 위해 Chrome의 "Google로부터 이미지 설명 받기" 기능은 대체 텍스트가 없는 이미지에 대해 자동으로 설명을 생성합니다. 이러한 AI 생성 설명이 사람이 작성한 것만큼 상세하지는 않더라도, 여전히 귀중한 정보를 제공합니다.

Link to this section시각 언어 모델의 이점과 한계#

시각 언어 모델(VLM)은 시각 데이터와 텍스트 데이터를 결합하여 많은 이점을 제공합니다. 주요 이점은 다음과 같습니다:

더 나은 인간-기계 상호작용: 시스템이 시각적 및 텍스트 입력을 모두 이해하고 응답할 수 있게 하여 가상 비서, 챗봇, 로봇 공학의 성능을 향상시킵니다.
고급 진단 및 분석: 의료 분야에서 이미지를 분석하고 설명을 생성하여 의료 전문가의 2차 소견을 지원하고 이상 징후를 탐지하는 데 도움을 줍니다.
대화형 스토리텔링 및 엔터테인먼트: 시각적 및 텍스트 입력을 결합하여 몰입감 있는 서사를 생성하고 게임 및 가상 현실에서의 사용자 경험을 향상시킵니다.

인상적인 기능에도 불구하고, 시각 언어 모델에는 특정 한계도 존재합니다. VLM과 관련하여 염두에 두어야 할 몇 가지 사항은 다음과 같습니다:

높은 컴퓨팅 요구 사항: VLM을 학습하고 배포하려면 상당한 컴퓨팅 자원이 필요하므로, 비용이 많이 들고 접근성이 낮아질 수 있습니다.
데이터 의존성 및 편향성: VLM은 다양성이 부족하거나 편향된 데이터셋으로 학습될 경우 편향된 결과를 생성할 수 있으며, 이는 고정관념과 잘못된 정보를 영속시킬 수 있습니다.
제한된 맥락 이해: VLM은 더 큰 그림이나 맥락을 이해하는 데 어려움을 겪을 수 있으며, 지나치게 단순화되거나 잘못된 출력을 생성할 수 있습니다.

Link to this section핵심 요약#

시각 언어 모델은 이커머스 및 의료와 같은 많은 분야에서 놀라운 잠재력을 가지고 있습니다. 시각 데이터와 텍스트 데이터를 결합함으로써 혁신을 주도하고 산업을 변화시킬 수 있습니다. 그러나 이러한 기술을 공정하게 사용할 수 있도록 책임감 있고 윤리적으로 개발하는 것이 필수적입니다. VLM이 계속 발전함에 따라 이미지 기반 검색 및 보조 기술과 같은 작업들은 더욱 개선될 것입니다.

AI에 대해 계속 학습하려면 저희 커뮤니티와 연결해 주십시오! 저희 GitHub 저장소를 살펴보시고 저희가 제조업 및 의료 분야와 같은 산업에서 혁신적인 솔루션을 만들기 위해 어떻게 AI를 활용하고 있는지 확인해 보시기 바랍니다. 🚀

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

비전 언어 모델과 그 응용 분야 이해

Link to this section시각 언어 모델의 작동 원리#

Link to this section대조 학습(Contrastive learning)#

Link to this sectionPrefixLM#

Link to this section교차 주의(Cross-Attention)를 통한 멀티모달 퓨징#

Link to this section시각 언어 모델의 응용#

Link to this section제품 설명 생성#

Link to this section인터넷 접근성 향상#

Link to this section시각 언어 모델의 이점과 한계#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!