욜로 비전 선전
선전
지금 참여하기

Florence-2: Microsoft의 최신 비전-언어 모델

Abirami Vina

6분 소요

2024년 7월 26일

뛰어난 효율성으로 향상된 객체 감지, 분할 및 제로샷 성능을 제공하는 Microsoft의 시각 언어 모델인 Florence-2를 만나보세요.

2024년 6월, Microsoft는 Florence-2를 출시했습니다. Florence-2는 객체 감지, 세분화, 이미지 캡션, 접지(grounding)를 포함한 광범위한 작업을 처리하도록 설계된 멀티 모달 시각적 언어 모델(VLM)입니다. Florence-2는 사전 특정 훈련 없이도 작업을 수행할 수 있는 제로샷 성능에 대한 새로운 기준을 설정하고 다른 최첨단 시각-언어 모델보다 더 작은 모델 크기를 자랑합니다.

Florence-2는 단순한 모델 그 이상으로, 다재다능함과 향상된 성능을 통해 정확도를 높이고 광범위한 훈련의 필요성을 줄임으로써 다양한 산업에 상당한 영향을 미칠 잠재력을 가지고 있습니다. 이 기사에서는 Florence-2의 혁신적인 기능들을 살펴보고, 다른 VLM과의 성능을 비교하며, 잠재적인 응용 분야에 대해 논의할 것입니다.

Florence-2란 무엇인가요?

Florence-2는 단일 통합 프레임워크 내에서 다양한 작업을 처리할 수 있습니다. 이 모델의 인상적인 기능은 FLD-5B라는 대규모 훈련 데이터 세트 덕분입니다. FLD-5B에는 1억 2,600만 개의 이미지에 걸쳐 54억 개의 주석이 포함되어 있습니다. 이 포괄적인 데이터 세트는 Florence-2가 광범위한 비전 작업을 높은 정확도와 효율성으로 처리하는 데 필요한 기능을 제공하기 위해 특별히 만들어졌습니다. 

다음은 Florence-2가 지원하는 작업에 대한 자세한 내용입니다.

  • 객체 감지: 이미지 내에서 객체를 매우 정확하게 식별하고 찾을 수 있습니다.
  • 세분화: 이 작업은 더 쉬운 분석과 해석을 위해 이미지를 의미 있는 세그먼트로 나누는 것을 포함합니다.
  • 이미지 캡셔닝: Florence-2는 컨텍스트와 세부 정보를 제공하는 이미지에 대한 설명 캡션을 생성할 수 있습니다.
  • 시각적 연결(Visual Grounding): 모델은 캡션의 특정 구문 또는 단어를 이미지의 해당 영역과 연결할 수 있습니다.
  • Zero-shot 성능: 특정 학습 없이도 작업을 수행할 수 있습니다.
__wf_reserved_inherit
Fig 1. Florence-2 학습 방식 이해

이 모델은 텍스트 기반 작업과 영역 기반 작업을 모두 지원합니다. 이미지의 특정 영역과 관련된 작업을 위해 특수 위치 토큰이 모델의 어휘에 추가됩니다. 이러한 토큰은 객체 주변의 사각형(상자 표현), 사변형 모양(쿼드 상자 표현) 및 다각형 모양(다각형 표현)과 같은 다양한 모양을 이해하는 데 도움이 됩니다. 모델은 교차 엔트로피 손실이라는 방법을 사용하여 학습되는데, 이는 예측을 정답과 비교하고 내부 파라미터를 조정하여 학습하는 데 도움이 됩니다.

FLD-5B 데이터 세트 생성

FLD-5B 데이터 세트에는 텍스트 설명, 영역 및 텍스트 쌍, 텍스트, 구문 및 영역의 조합과 같은 다양한 유형의 주석이 포함되어 있습니다. 이 데이터 세트는 데이터 수집 및 주석이라는 두 단계 프로세스를 통해 생성되었습니다. 이미지는 ImageNet-22k, Object 365, Open Images, Conceptual Captions 및 LAION과 같은 인기 있는 데이터 세트에서 가져왔습니다. FLD-5B 데이터 세트의 주석은 대부분 합성 데이터입니다. 즉, 수동으로 레이블을 지정하는 대신 자동으로 생성되었습니다. 

__wf_reserved_inherit
Fig 2. FLD-5B 데이터 세트 생성.

초기에는 객체 탐지 또는 분할과 같은 특정 작업에 능숙한 전문 모델이 이러한 주석을 생성했습니다. 그런 다음, 주석이 상세하고 정확한지 확인하기 위해 필터링 및 개선 프로세스가 사용되었습니다. 노이즈를 제거한 후 데이터 세트는 Florence-2의 출력을 사용하여 주석을 지속적으로 업데이트하고 개선하는 반복적인 개선을 거쳤습니다. 

Florence-2의 모델 아키텍처 이해

Florence-2의 모델 아키텍처는 시퀀스-투-시퀀스 학습 방식을 따릅니다. 즉, 모델은 입력 시퀀스(텍스트 프롬프트가 있는 이미지와 같은)를 처리하고 단계별로 출력 시퀀스(설명 또는 레이블과 같은)를 생성합니다. 시퀀스-투-시퀀스 프레임워크에서 각 작업은 번역 문제로 취급됩니다. 모델은 입력 이미지와 작업별 프롬프트를 가져와 해당 출력을 생성합니다.

__wf_reserved_inherit
Fig 3. Florence-2의 Vision-Language 모델 아키텍처.

모델 아키텍처의 핵심은 이미지 인코더와 다중 모드 인코더-디코더를 결합한 다중 모드 인코더-디코더 변환기입니다. DaViT(Data-efficient Vision Transformer)라는 이미지 인코더는 입력 이미지를 시각적 토큰 임베딩(공간적(사물이 있는 위치) 및 의미적(사물이 무엇인지) 정보를 모두 캡처하는 이미지의 압축된 표현)으로 변환하여 처리합니다. 그런 다음 이러한 시각적 토큰은 텍스트 임베딩(텍스트 표현)과 결합되어 모델이 텍스트 및 시각적 데이터를 원활하게 병합할 수 있습니다.

Florence-2와 다른 VLM 비교

Florence-2는 인상적인 제로샷 기능으로 인해 다른 시각 언어 모델과 차별화됩니다. 다양한 작업에 적응하기 위해 광범위한 미세 조정에 의존하는 PaliGemma와 같은 모델과 달리 Florence-2는 바로 사용할 수 있습니다. 또한 Florence-2는 더 많은 매개변수를 가지고 있지만 Florence-2의 성능과 항상 일치하지는 않는 GPT-4V 및 Flamingo와 같은 더 큰 모델과 경쟁할 수 있습니다. 예를 들어 Florence-2는 Kosmos-2보다 매개변수 수가 두 배 이상 많음에도 불구하고 Kosmos-2보다 더 나은 제로샷 결과를 얻습니다.

벤치마크 테스트에서 Florence-2는 COCO 캡셔닝 및 지칭 표현 이해와 같은 작업에서 뛰어난 성능을 보여주었습니다. COCO 데이터 세트에서 객체 탐지 및 분할 작업에서 PolyFormer 및 UNINEXT와 같은 모델보다 뛰어난 성능을 보였습니다. Florence-2는 성능과 리소스 효율성이 모두 중요한 실제 애플리케이션에 매우 경쟁력 있는 선택입니다.

Florence-2의 응용 분야

Florence-2는 엔터테인먼트, 접근성, 교육 등 다양한 산업 분야에서 사용될 수 있습니다. 몇 가지 예를 통해 더 잘 이해해 보겠습니다.

이미지 캡셔닝 응용 분야

스트리밍 플랫폼에서 무엇을 볼지 결정하려고 할 때, 선택에 도움이 되도록 영화 요약을 읽을 수 있습니다. 플랫폼에서 영화 포스터에 대한 자세한 설명을 제공할 수 있다면 어떨까요? Florence-2는 이미지에 대한 설명 텍스트를 생성하는 이미지 캡셔닝을 통해 이를 가능하게 할 수 있습니다. Florence-2는 영화 포스터에 대한 자세한 설명을 생성하여 스트리밍 플랫폼을 시각 장애가 있는 사용자를 위해 더욱 포용적으로 만들 수 있습니다. Florence-2는 캐릭터, 풍경, 텍스트와 같은 포스터의 시각적 요소를 분석하여 포스터의 내용과 분위기를 전달하는 자세한 설명을 만들 수 있습니다. 아래 이미지는 Florence-2가 제공할 수 있는 세부 수준을 보여줍니다.

__wf_reserved_inherit
Fig 4. Florence-2가 생성한 이미지 캡션의 예시입니다. 

다음은 이미지 캡셔닝이 유용할 수 있는 다른 예입니다.

  • E-커머스: 이미지 캡셔닝은 제품 이미지에 대한 자세한 설명을 제공하여 고객이 제품 기능과 세부 정보를 더 명확하게 이해하도록 돕습니다.
  • 여행 및 관광: 여행 가이드 및 앱에서 랜드마크 및 명소에 대한 자세한 설명을 제공할 수 있습니다.
  • 교육: 이미지 캡셔닝은 교육용 이미지와 다이어그램에 레이블을 지정하고 설명하여 교육 및 학습을 지원할 수 있습니다.
  • 부동산: 잠재적 구매자를 위해 특징과 편의 시설을 강조하는 자세한 부동산 이미지 설명을 제공할 수 있습니다.

요리 중 시각적 접지 사용

Florence-2는 요리 경험을 풍부하게 하는 데에도 사용할 수 있습니다. 예를 들어 온라인 요리책에서 Florence-2를 사용하여 복잡한 레시피 이미지의 부분을 시각적으로 연결하고 레이블을 지정할 수 있습니다. 여기서 시각적 연결은 이미지의 특정 부분을 해당 설명 텍스트에 연결하여 도움이 됩니다. 각 재료와 단계를 정확하게 레이블링하고 설명하여 가정 요리사가 레시피를 따르고 요리의 각 구성 요소의 역할을 더 쉽게 이해할 수 있습니다.

__wf_reserved_inherit
Fig 5. Florence-2를 사용한 시각적 접지(visual grounding)의 예시. 

금융 문서의 영역 기반 OCR

문서 내 특정 영역에서 텍스트를 추출하는 데 중점을 두는 영역 기반 처리 OCR은 회계와 같은 분야에서 유용하게 사용될 수 있습니다. 금융 문서의 지정된 영역을 분석하여 거래 내역, 계좌 번호, 마감일과 같은 중요한 정보를 자동으로 추출할 수 있습니다. 수동 데이터 입력의 필요성을 줄임으로써 오류를 최소화하고 처리 속도를 높입니다. 금융 기관은 이를 사용하여 송장 처리, 영수증 조정, 수표 결제와 같은 작업을 간소화하여 더 빠른 거래와 더 나은 고객 서비스를 제공할 수 있습니다. 

__wf_reserved_inherit
Fig 6. Florence-2를 사용하여 영역별 OCR을 추출하는 예시입니다. 

산업 응용 분야의 영역 기반 분할

영역 기반 분할은 이미지를 의미 있는 부분으로 나누어 집중적인 분석과 상세 검사를 가능하게 하며, 다양한 공정에서 정밀성과 효율성을 향상시키는 산업 응용 분야를 촉진할 수 있습니다. 이미지 내 특정 영역에 집중함으로써 이 기술은 부품 및 제품에 대한 상세한 검사 및 분석을 가능하게 합니다. 품질 관리와 관련하여 균열 또는 정렬 불량과 같은 재료의 결함이나 불일치를 식별하여 최고 품질의 제품만 시장에 출시되도록 보장할 수 있습니다.

__wf_reserved_inherit
Fig 7. Florence-2를 사용한 영역 기반 분할 예시.

또한 로봇 팔을 특정 부품으로 안내하고 부품의 배치 및 조립을 최적화하여 자동 조립 라인을 개선합니다. 마찬가지로 재고 관리에서 상품의 상태와 위치를 추적하고 모니터링하여 보다 효율적인 물류와 가동 중지 시간 단축을 가능하게 합니다. 전반적으로 영역 기반 분할은 정확성과 생산성을 향상시켜 산업 환경에서 비용 절감과 제품 품질 향상으로 이어집니다.

주요 내용

AI 모델이 높은 성능을 유지하면서도 더 가벼워지는 추세를 보이고 있습니다. Florence-2는 시각 언어 모델 측면에서 중요한 진전을 이루었습니다. 객체 탐지, 분할, 이미지 캡셔닝, 그라운딩과 같은 다양한 작업을 인상적인 제로샷 성능으로 처리할 수 있습니다. Florence-2는 크기가 작음에도 불구하고 효율적이고 다기능적이어서 다양한 산업 분야에서 매우 유용합니다. Florence-2와 같은 모델은 AI 혁신의 잠재력을 확장하여 더 많은 가능성을 제시합니다.

GitHub 저장소를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 제조업농업 분야의 AI 애플리케이션에 대해 읽어보세요. 🚀

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.