FastVLM: Apple의 새로운 고속 비전 언어 모델

CVPR 2025 컨퍼런스에서 Apple은 FastVLM이라는 새로운 오픈 소스 AI 모델을 소개했습니다. 이 모델은 이미지와 언어를 모두 이해하도록 구축되었으며 iPhone, iPad 및 Mac과 같은 Apple 장치에서 실행됩니다. 즉, 데이터를 클라우드로 보내지 않고도 스마트한 결과를 빠르게 제공할 수 있습니다.

FastVLM이 특히 흥미로운 점은 속도와 효율성입니다. Apple은 FastViTHD라는 새로운 비전 인코더를 개발하여 모델이 더 적은 메모리와 전력을 사용하면서 고품질 이미지를 해석하도록 돕습니다. 모든 처리는 장치에서 로컬로 이루어지므로 사용자 개인 정보를 보호하면서 응답 시간이 빨라집니다.

이번 글에서는 FastVLM의 작동 방식, 차별화되는 특징, 그리고 Apple의 이번 출시가 일상적인 AI 애플리케이션에 있어 왜 중요한 진전이 될 수 있는지 살펴보겠습니다.

시각 언어 모델(VLM) 이해

FastVLM을 특별하게 만드는 요소에 대해 자세히 알아보기 전에, 이름에 있는 “VLM”이 무엇을 의미하는지 살펴보겠습니다. 이는 시각적 콘텐츠와 언어를 이해하고 연결하도록 설계된 비전-언어 모델을 의미합니다.

VLM은 시각적 이해와 언어를 결합하여 사진 설명, 스크린샷에 대한 질문 답변 또는 문서에서 텍스트 추출과 같은 작업을 수행할 수 있습니다. Vision-language 모델은 일반적으로 두 부분으로 작동합니다. 하나는 이미지를 처리하여 데이터로 변환하고, 다른 하나는 해당 데이터를 해석하여 읽거나 들을 수 있는 응답을 생성합니다.

귀하는 이미 깨닫지 못한 채로 이러한 종류의 AI 혁신을 사용했을 수 있습니다. 영수증을 스캔하고, ID 카드를 읽고, 이미지 캡션을 생성하거나, 시력이 낮은 사람들이 화면과 상호 작용하도록 돕는 앱은 종종 백그라운드에서 조용히 실행되는 비전-언어 모델에 의존합니다.

FastVLM이란 무엇인가?

Apple은 다른 비전-언어 모델과 동일한 작업을 수행하되 더 빠른 속도, 더 강력한 개인 정보 보호 및 자체 장치에서 최적화된 성능을 제공하기 위해 FastVLM을 구축했습니다. 이미지 내용을 이해하고 텍스트로 응답할 수 있지만 클라우드 서버에 의존하는 많은 모델과 달리 FastVLM은 iPhone, iPad 또는 Mac에서 완전히 실행할 수 있습니다.

VLM은 일반적으로 고해상도 이미지에서 더 나은 성능을 발휘합니다. 예를 들어 아래와 같이 FastVLM은 이미지의 고해상도 버전이 제공된 경우에만 도로 표지판을 '진입 금지'로 올바르게 식별할 수 있었습니다. 그러나 고해상도 입력은 일반적으로 모델 속도를 늦춥니다. 여기서 FastViTHD가 차이를 만듭니다.

그림 1. 저해상도 이미지와 고해상도 이미지에서 FastVLM 성능. (출처)

‍

Apple의 새로운 비전 인코더인 FastViTHD는 FastVLM이 더 적은 메모리와 전력을 사용하여 고품질 이미지를 보다 효율적으로 처리하도록 돕습니다. 특히 FastViTHD는 더 작은 장치에서도 원활하게 실행될 수 있을 만큼 가볍습니다.

또한 FastVLM은 FastVLM GitHub 리포지토리에서 공개적으로 사용할 수 있으며, 개발자는 소스 코드에 액세스하고 변경하고 Apple의 라이선스 조건에 따라 자신의 앱에서 사용할 수 있습니다.

FastVLM과 다른 VLM 모델 비교

다른 비전-언어 모델과 비교하여 FastVLM은 스마트폰 및 노트북과 같은 일상적인 장치에서 실행되도록 최적화되어 있습니다. 성능 테스트에서 FastVLM은 LLaVA-OneVision-0.5B와 같은 모델보다 최대 85배 더 빠르게 첫 번째 단어 또는 출력을 생성했습니다.

‍

다음은 FastVLM이 평가된 몇 가지 표준 벤치마크에 대한 간략한 소개입니다.

DocVQA (문서 시각적 질의 응답): 이 벤치마크는 모델이 스캔한 양식이나 페이지와 같은 문서의 텍스트 정보를 얼마나 잘 읽고 이해하는지 평가합니다.
‍
TextVQA (텍스트 기반 시각적 질의 응답): 내장된 텍스트가 포함된 이미지를 해석하고 관련 질문에 정확하게 답변하는 모델의 능력을 평가합니다.
‍
GQA (Graph Question Answering): 이 작업은 이미지 내의 객체와 장면 간의 관계를 이해하도록 요구하여 모델의 추론 능력을 테스트합니다.
‍
MMMU (Massive Multi-discipline Multimodal Understanding): 광범위한 학문 분야와 형식에 걸쳐 모델의 성능을 측정하며, 시각적 이해와 텍스트 이해를 결합합니다.
‍
SeedBench (벤치마킹을 위한 향상된 데이터의 표준 평가): 이 벤치마크는 여러 도메인에서 시각적 이해 및 추론에 대한 모델의 일반적인 기능을 탐색합니다.

이러한 벤치마크에서 FastVLM은 더 적은 리소스를 사용하면서 경쟁력 있는 결과를 달성했습니다. 이는 전화, 태블릿 및 노트북과 같은 일상적인 장치에 실용적인 시각적 AI를 제공합니다.

FastVLM의 효율적인 비전 인코더: FastViTHD

다음으로, FastVLM의 이미지 처리 성능에서 중요한 역할을 하는 비전 인코더인 FastViTHD를 자세히 살펴보겠습니다.

대부분의 비전 언어 모델은 이미지를 수천 개의 작은 패치(토큰이라고 함)로 분할합니다. 토큰이 많을수록 모델이 이미지를 이해하는 데 더 많은 시간과 전력이 필요합니다. 이로 인해 특히 휴대폰이나 랩톱에서 속도가 느려질 수 있습니다.

‍

FastViTHD는 더 적은 수의 토큰을 사용하여 전체 이미지를 이해하면서도 너무 많은 토큰을 처리할 때 발생하는 속도 저하를 방지합니다. 패턴과 관계 모델링에 능숙한 트랜스포머와 시각적 데이터 처리에 효율적인 컨볼루션 레이어라는 두 가지 접근 방식을 결합합니다. 그 결과 더 빠르게 작동하고 메모리를 덜 사용하는 시스템이 탄생했습니다.

Apple에 따르면 FastViTHD는 높은 정확도를 유지하면서도 일부 기존 비전 인코더보다 최대 3.4배 더 작습니다. 토큰 가지치기(처리 속도를 높이기 위해 중요도가 낮은 이미지 패치를 제거)와 같은 모델 최적화 기술에 의존하는 대신, 더 간단하고 간소화된 아키텍처를 통해 효율성을 달성합니다.

FastVLM의 모델 변형 및 훈련 파이프라인

Apple은 FastVLM을 0.5B, 1.5B 및 7B 파라미터의 세 가지 크기로 출시했습니다("B"는 10억을 의미하며 모델에서 훈련 가능한 가중치 수를 나타냅니다). 각 버전은 다양한 유형의 장치에 맞게 설계되었습니다. 더 작은 모델은 휴대폰과 태블릿에서 실행할 수 있는 반면, 더 큰 7B 모델은 데스크톱 또는 더 까다로운 작업에 더 적합합니다.

이를 통해 개발자는 앱에 가장 적합한 것을 유연하게 선택할 수 있습니다. 동일한 기본 모델 아키텍처를 사용하여 모바일에 적합한 빠르고 가벼운 것을 구축하거나 더 큰 시스템에 적합한 더 복잡한 것을 구축할 수 있습니다.

Apple은 비전 및 언어 모델 정렬을 위한 프레임워크인 LLaVA-1.5 파이프라인을 사용하여 FastVLM 모델 변형을 훈련했습니다. 언어 구성 요소의 경우 자연스럽고 일관된 텍스트를 생성하는 것으로 알려진 Qwen 및 Vicuna와 같은 기존 오픈 소스 모델을 사용하여 FastVLM을 평가했습니다. 이 설정을 통해 FastVLM은 간단하고 복잡한 이미지를 모두 처리하고 읽기 쉽고 관련성 있는 응답을 생성할 수 있습니다.

FastVLM의 중요성: Apple의 효율적인 AI 접근 방식

FastVLM의 효율적인 이미지 처리가 왜 중요한지 궁금할 수 있습니다. 이는 앱이 클라우드에 의존하지 않고 실시간으로 얼마나 원활하게 작동할 수 있는지에 달려 있습니다. FastVLM은 최대 1152 x 1152 픽셀의 고해상도 이미지를 처리할 수 있으며 장치에서 직접 실행할 수 있을 만큼 빠르고 가볍습니다.

이는 앱이 카메라에 보이는 것을 설명하고, 캡처된 영수증을 스캔하거나, 화면의 변경 사항에 응답할 수 있다는 의미이며, 이 모든 것이 로컬에서 이루어집니다. 이는 교육, 접근성, 생산성 및 사진과 같은 분야에 특히 유용합니다.

FastViTHD는 큰 이미지에서도 효율적이므로 장치의 반응성을 유지하고 발열을 줄이는 데 도움이 됩니다. 이 모델은 엔트리 레벨 iPhone에서 실행되는 가장 작은 모델을 포함하여 모든 모델 크기에서 작동합니다. 즉, 동일한 AI 기능을 휴대폰, 태블릿 및 Mac에서 사용할 수 있습니다.

FastVLM의 응용

FastVLM은 속도, 효율성 및 온디바이스 개인 정보 보호와 같은 주요 이점 덕분에 광범위한 애플리케이션을 지원할 수 있습니다. 몇 가지 사용 방법은 다음과 같습니다.

문서 읽기: 영수증, 양식 또는 ID 카드를 스캔하고 관련 정보만 추출할 수 있습니다. 빠른 속도와 정확한 텍스트 추출이 필요한 앱에 유용한 이미지의 특정 영역에 집중할 수 있습니다.
‍
Image captions(이미지 캡션): 사진을 분석하여 이미지에 있는 내용에 대한 명확한 설명을 생성할 수 있습니다. 이는 카메라 앱, 사진 갤러리 또는 실시간 시각적 이해의 이점을 얻을 수 있는 모든 도구의 기능을 지원합니다.
‍
접근성 지원: FastVLM은 시각 장애가 있거나 시력이 낮은 사용자를 위해 화면의 콘텐츠를 설명하여 버튼, 메뉴 및 레이아웃 요소를 더 쉽게 탐색하고 사용할 수 있도록 합니다.

온디바이스 AI 어시스턴트: FastVLM은 화면에 무엇이 있는지 빠르게 이해해야 하는 AI 어시스턴트와 잘 작동할 수 있습니다. 장치에서 직접 실행되고 데이터를 비공개로 유지하므로 텍스트 읽기, 버튼 또는 아이콘 식별, 클라우드로 정보를 보낼 필요 없이 실시간으로 사용자 안내와 같은 작업을 지원할 수 있습니다.

그림 4. FastVLM은 텍스트 인식 및 시각적 질의 응답에 사용될 수 있습니다. (출처)

‍

주요 내용

FastVLM은 속도, 개인 정보 보호 및 효율성을 결합하여 온디바이스 비전-언어 AI를 Apple 장치에 제공합니다. 가벼운 디자인과 오픈 소스 릴리스를 통해 모바일 및 데스크톱 앱에서 실시간 이미지 이해가 가능합니다.

이는 AI를 보다 실용적이고 일상적인 사용에 접근하기 쉽게 만들고 개발자에게 유용하고 개인 정보 보호에 중점을 둔 애플리케이션을 구축하기 위한 견고한 기반을 제공합니다. 앞으로 비전-언어 모델은 우리가 기술과 상호 작용하는 방식에서 중요한 역할을 수행하여 AI를 보다 반응적이고 상황을 인식하며 일상적인 상황에서 유용하게 만들 가능성이 높습니다.

GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 활발한 커뮤니티에 참여하고 자동차 분야의 AI 산업 및 제조 분야의 Vision AI와 같은 분야의 혁신을 발견하십시오. 오늘 컴퓨터 비전을 시작하려면 라이선스 옵션을 확인하십시오.

FastVLM: Apple, 새로운 고속 비전 언어 모델 발표

시각 언어 모델(VLM) 이해

FastVLM이란 무엇인가?

FastVLM과 다른 VLM 모델 비교

FastVLM의 효율적인 비전 인코더: FastViTHD

FastVLM의 모델 변형 및 훈련 파이프라인

FastVLM의 중요성: Apple의 효율적인 AI 접근 방식

FastVLM의 응용

주요 내용

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

의료 진단을 위한 비전 AI 도구

데이터에서 의사결정으로: 기업 전략을 위한 비전 AI 활용

함께 미래의 AI를 만들어 갑시다!