비전 AI

Florence-2: Microsoft의 최신 비전 언어 모델

향상된 객체 탐지, 세그멘테이션 및 뛰어난 효율성을 갖춘 제로샷 성능을 제공하는 Microsoft의 비전 언어 모델인 Florence-2를 만나보십시오.

ABAbirami Vina

6 min readJuly 26, 2024

In June 2024, Microsoft introduced Florence-2, a multi-modal visual language model (VLM) that is designed to handle a wide range of tasks including object detection, segmentation, image captioning, and grounding. Florence-2 sets a new benchmark for zero-shot performance, meaning it can perform tasks without prior specific training, and boasts a smaller model size than other state-of-the-art vision-language models.

단순한 또 하나의 모델 그 이상으로, Florence-2의 범용성과 향상된 성능은 정확도를 높이고 광범위한 학습의 필요성을 줄임으로써 다양한 산업에 상당한 영향을 미칠 잠재력을 가지고 있습니다. 이 기사에서는 Florence-2의 혁신적인 기능을 살펴보고, 다른 VLM과 성능을 비교하며, 잠재적인 응용 분야에 대해 논의하겠습니다.

Link to this sectionFlorence-2란 무엇인가?#

Florence-2는 단일 통합 프레임워크 내에서 다양한 작업을 처리할 수 있습니다. 이 모델의 인상적인 기능은 부분적으로 FLD-5B라는 거대한 학습 데이터셋 덕분입니다. FLD-5B는 1억 2,600만 개의 이미지에 걸쳐 54억 개의 주석을 포함합니다. 이 포괄적인 데이터셋은 Florence-2가 높은 정확도와 효율성으로 광범위한 비전 작업을 처리하는 데 필요한 기능을 갖추도록 특별히 제작되었습니다.

Florence-2가 지원하는 작업들을 자세히 살펴보겠습니다:

객체 탐지: 이미지 내의 객체를 높은 정밀도로 식별하고 위치를 파악할 수 있습니다.
세그멘테이션: 이 작업은 더 쉬운 분석과 해석을 위해 이미지를 의미 있는 세그먼트로 나누는 것을 포함합니다.
이미지 캡셔닝: Florence-2는 이미지에 대한 맥락과 세부 정보를 제공하는 설명 캡션을 생성할 수 있습니다.
비주얼 그라운딩: 모델은 캡션의 특정 구문이나 단어를 이미지 내의 해당 영역과 연결할 수 있습니다.
제로샷 성능: 특정 학습 없이도 작업을 수행할 수 있습니다.

Florence-2 학습 방식 다이어그램

그림 1. Florence-2 학습 방식 이해하기.

이 모델은 텍스트 기반 작업과 영역 기반 작업을 모두 지원합니다. 이미지의 특정 영역과 관련된 작업을 위해 모델의 어휘집에 특수 위치 토큰이 추가됩니다. 이러한 토큰은 모델이 객체 주변의 직사각형(박스 표현), 사변형(쿼드 박스 표현), 다각형(다각형 표현)과 같은 다양한 모양을 이해하도록 돕습니다. 모델은 교차 엔트로피 손실(cross-entropy loss)이라는 방법을 사용하여 학습되는데, 이는 예측 결과를 정답과 비교하고 그에 따라 내부 파라미터를 조정하여 학습하도록 돕습니다.

Link to this sectionFLD-5B 데이터셋 구축#

FLD-5B 데이터셋에는 텍스트 설명, 영역과 텍스트의 쌍, 텍스트와 구문 및 영역의 조합 등 다양한 유형의 주석이 포함되어 있습니다. 이는 데이터 수집 및 주석 과정을 포함하는 2단계 프로세스를 통해 생성되었습니다. 이미지는 ImageNet-22k, Object 365, Open Images, Conceptual Captions, LAION과 같은 인기 있는 데이터셋에서 가져왔습니다. FLD-5B 데이터셋의 주석은 대부분 합성 데이터로, 수동으로 라벨링된 것이 아니라 자동으로 생성되었습니다.

FLD-5B 데이터셋 생성 다이어그램

그림 2. FLD-5B 데이터셋 구축.

초기에는 객체 탐지나 세그멘테이션과 같은 특정 작업에 능숙한 전문가 모델이 이러한 주석을 생성했습니다. 그 후, 주석이 상세하고 정확한지 확인하기 위해 필터링 및 향상 과정이 사용되었습니다. 노이즈를 제거한 후, 데이터셋은 Florence-2의 출력을 사용하여 주석을 지속적으로 업데이트하고 개선하는 반복적인 개선 과정을 거쳤습니다.

Link to this sectionFlorence-2 모델 아키텍처 이해하기#

Florence-2의 모델 아키텍처는 시퀀스 투 시퀀스(sequence-to-sequence) 학습 방식을 따릅니다. 이는 모델이 입력 시퀀스(텍스트 프롬프트가 포함된 이미지 등)를 처리하고 출력 시퀀스(설명이나 라벨 등)를 단계별로 생성함을 의미합니다. 시퀀스 투 시퀀스 프레임워크에서 각 작업은 번역 문제로 취급됩니다. 모델은 입력 이미지와 작업별 프롬프트를 받아 해당 출력을 생성합니다.

Florence-2 시각 언어 모델 아키텍처 다이어그램

그림 3. Florence-2의 비전 언어 모델 아키텍처.

모델 아키텍처의 핵심은 이미지 인코더와 멀티모달 인코더-디코더를 결합한 멀티모달 인코더-디코더 Transformer입니다. DaViT(Data-efficient Vision Transformer)라고 불리는 이미지 인코더는 입력 이미지를 시각적 토큰 임베딩으로 변환하여 이미지를 처리합니다. 이는 공간적 정보(사물이 어디에 있는지)와 의미론적 정보(사물이 무엇인지)를 모두 포착하는 이미지의 압축된 표현입니다. 이러한 시각적 토큰은 텍스트 임베딩(텍스트의 표현)과 결합되어 모델이 텍스트 데이터와 시각적 데이터를 원활하게 병합할 수 있게 합니다.

Link to this sectionFlorence-2와 다른 VLM 비교#

Florence-2는 인상적인 제로샷 기능 덕분에 다른 비전 언어 모델들 중에서 두각을 나타냅니다. 다양한 작업에 적응하기 위해 광범위한 파인튜닝에 의존하는 PaliGemma와 같은 모델과 달리, Florence-2는 즉시 사용 가능합니다. 또한 Florence-2는 GPT-4V나 Flamingo와 같은 더 큰 모델들과 경쟁할 수 있습니다. 이러한 모델들은 종종 훨씬 더 많은 파라미터를 가지고 있지만 항상 Florence-2의 성능과 일치하지는 않습니다. 예를 들어, Florence-2는 Kosmos-2가 파라미터 수가 두 배 이상 많음에도 불구하고 Kosmos-2보다 더 나은 제로샷 결과를 달성합니다.

벤치마크 테스트에서 Florence-2는 COCO 캡셔닝 및 referring expression comprehension(지시 표현 이해)과 같은 작업에서 놀라운 성능을 보여주었습니다. 이는 COCO 데이터셋에서의 객체 탐지 및 세그멘테이션 작업에서 PolyFormer나 UNINEXT와 같은 모델을 능가했습니다. 성능과 자원 효율성이 모두 중요한 실제 응용 분야에서 매우 경쟁력 있는 선택지입니다.

Link to this sectionFlorence-2의 응용 분야#

Florence-2는 엔터테인먼트, 접근성, 교육 등 다양한 산업에서 사용될 수 있습니다. 더 잘 이해하기 위해 몇 가지 예를 살펴보겠습니다.

Link to this section이미지 캡셔닝의 응용#

스트리밍 플랫폼에서 무엇을 볼지 고민할 때, 영화 요약을 읽어보고 결정을 내릴 수 있습니다. 플랫폼이 영화 포스터에 대한 자세한 설명도 제공할 수 있다면 어떨까요? Florence-2는 이미지에 대한 설명 텍스트를 생성하는 이미지 캡셔닝을 통해 이를 가능하게 합니다. Florence-2는 영화 포스터에 대한 자세한 설명을 생성하여 스트리밍 플랫폼을 시각 장애인이 더욱 쉽게 이용할 수 있도록 만들 수 있습니다. 인물, 풍경, 텍스트와 같은 포스터의 시각적 요소를 분석하여 Florence-2는 포스터의 내용과 분위기를 전달하는 상세한 설명을 만들 수 있습니다. 아래 이미지는 Florence-2가 설명에서 제공할 수 있는 세부 수준을 보여줍니다.

Florence-2로 생성된 이미지 캡션 예시

그림 4. Florence-2로 생성된 이미지 캡션의 예.

이미지 캡셔닝이 도움이 될 수 있는 다른 예는 다음과 같습니다:

전자상거래: 이미지 캡셔닝은 제품 이미지에 대한 상세한 설명을 제공하여 고객이 제품의 특징과 세부 정보를 더 명확하게 이해하도록 도울 수 있습니다.
여행 및 관광: 여행 가이드 및 앱에서 랜드마크 및 관광지에 대한 상세한 설명을 제공할 수 있습니다.
교육: 이미지 캡셔닝은 교육용 이미지와 다이어그램에 라벨을 붙이고 설명하여 교수 및 학습을 도울 수 있습니다.
부동산: 잠재 구매자를 위해 기능과 편의 시설을 강조하는 부동산 이미지에 대한 상세한 설명을 제공할 수 있습니다.

Link to this section요리할 때 비주얼 그라운딩 사용하기#

Florence-2는 요리 경험을 풍부하게 하는 데에도 사용할 수 있습니다. 예를 들어, 온라인 요리책은 Florence-2를 사용하여 복잡한 레시피 이미지의 일부를 시각적으로 그라운딩하고 라벨을 붙일 수 있습니다. 여기서 비주얼 그라운딩은 이미지의 특정 부분과 해당 설명 텍스트를 연결하는 데 도움이 됩니다. 각 재료와 단계를 정확하게 라벨링하고 설명할 수 있어, 가정 요리사가 레시피를 따라가고 요리에서 각 구성 요소의 역할을 이해하기가 더 쉬워집니다.

Florence-2를 사용한 시각적 그라운딩 예시

그림 5. Florence-2를 사용한 비주얼 그라운딩의 예.

Link to this section금융 문서를 위한 영역 기반 OCR#

문서 내 특정 영역에서 텍스트를 추출하는 데 중점을 두는 영역 기반 처리 방식의 OCR은 회계 분야와 같은 곳에서 유용하게 사용될 수 있습니다. 금융 문서의 지정된 영역을 분석하여 거래 내역, 계좌 번호, 마감일과 같은 중요한 정보를 자동으로 추출할 수 있습니다. 수동 데이터 입력의 필요성을 줄임으로써 오류를 최소화하고 처리 속도를 높입니다. 금융 기관은 이를 사용하여 송장 처리, 영수증 대조, 수표 결제와 같은 작업을 간소화하여 거래 속도를 높이고 고객 서비스를 개선할 수 있습니다.

Florence-2를 사용한 영역 기반 OCR 예시

그림 6. Florence-2를 사용하여 영역 기반 OCR을 추출하는 예.

Link to this section산업 응용 분야에서의 영역 기반 세그멘테이션#

집중적인 분석과 상세한 검사를 위해 이미지를 의미 있는 부분으로 나누는 영역 기반 세그멘테이션은 다양한 공정의 정밀도와 효율성을 향상시키는 산업 응용 분야를 촉진할 수 있습니다. 이미지 내 특정 영역에 집중함으로써 이 기술은 구성 요소와 제품에 대한 상세한 검사와 분석을 가능하게 합니다. 품질 관리와 관련하여 균열이나 정렬 불량과 같은 재료의 결함 또는 불일치를 식별하여 최고 품질의 제품만 시장에 도달하도록 보장합니다.

Florence-2를 사용한 영역 기반 세그멘테이션 예시

그림 7. Florence-2를 사용한 영역 기반 세그멘테이션의 예.

또한 로봇 팔을 특정 부품으로 안내하고 구성 요소의 배치와 조립을 최적화하여 자동 조립 라인을 개선합니다. 마찬가지로 재고 관리에서도 상품의 상태와 위치를 추적 및 모니터링하여 물류 효율성을 높이고 다운타임을 줄이는 데 도움이 됩니다. 전반적으로 영역 기반 세그멘테이션은 정확도와 생산성을 향상시켜 산업 환경에서 비용 절감과 더 높은 제품 품질로 이어집니다.

Link to this section핵심 요약#

우리는 AI 모델이 높은 성능을 유지하면서 더 가벼워지는 추세를 보고 있습니다. Florence-2는 비전 언어 모델 측면에서 큰 진전을 이루었습니다. 객체 탐지, 세그멘테이션, 이미지 캡셔닝, 그라운딩과 같은 다양한 작업을 인상적인 제로샷 성능으로 처리할 수 있습니다. 크기는 작지만 Florence-2는 효율적이고 다기능적이며, 이는 다양한 산업 전반의 응용 분야에서 매우 유용하게 만듭니다. Florence-2와 같은 모델은 더 많은 가능성을 제시하며 AI 혁신의 잠재력을 확장하고 있습니다.

저희 GitHub 리포지토리를 방문하고 커뮤니티에 가입하여 AI에 대해 더 자세히 알아보세요. 제조 및 농업 분야의 AI 응용 사례를 보려면 솔루션 페이지를 확인하세요. 🚀

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Florence-2: Microsoft의 최신 비전 언어 모델

Link to this sectionFlorence-2란 무엇인가?#

Link to this sectionFLD-5B 데이터셋 구축#

Link to this sectionFlorence-2 모델 아키텍처 이해하기#

Link to this sectionFlorence-2와 다른 VLM 비교#

Link to this sectionFlorence-2의 응용 분야#

Link to this section이미지 캡셔닝의 응용#

Link to this section요리할 때 비주얼 그라운딩 사용하기#

Link to this section금융 문서를 위한 영역 기반 OCR#

Link to this section산업 응용 분야에서의 영역 기반 세그멘테이션#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!