FastVLM: Apple이 선보이는 새로운 고속 비전-언어 모델
Apple이 CVPR 2025에서 FastVLM을 공개했습니다. 이 오픈 소스 비전-언어 모델은 FastViTHD 인코더를 탑재하여 첫 토큰 생성 시간을 최대 85배까지 단축합니다.

CVPR 2025 컨퍼런스에서 Apple은 FastVLM이라는 새로운 오픈 소스 AI 모델을 선보였습니다. 이 모델은 이미지와 언어를 모두 이해할 수 있도록 구축되었으며, iPhone, iPad, Mac과 같은 Apple 기기에서 실행됩니다. 이는 데이터를 클라우드로 전송하지 않고도 빠르고 스마트한 결과를 제공할 수 있음을 의미합니다.
FastVLM이 특히 주목받는 이유는 그 속도와 효율성 때문입니다. Apple은 FastViTHD라는 새로운 비전 인코더를 개발했는데, 이는 모델이 더 적은 메모리와 전력을 사용하면서도 고품질 이미지를 해석할 수 있도록 돕습니다. 모든 처리가 기기 내부에서 로컬로 이루어지므로, 사용자 개인정보를 보호하면서도 더 빠른 응답 시간을 제공합니다.
이 글에서는 FastVLM의 작동 방식과 차별점, 그리고 이번 Apple의 발표가 기기 내 일상적인 AI 애플리케이션에 어떤 중요한 발전이 될 수 있는지 살펴봅니다.
Link to this section비전 언어 모델(VLM)의 이해#
FastVLM의 특별함을 살펴보기 전에, 이름에 포함된 “VLM”이 무엇을 의미하는지 알아보겠습니다. 이는 비전 언어 모델을 의미하며, 시각적 콘텐츠와 언어를 이해하고 연결하도록 설계되었습니다.
VLM은 시각적 이해와 언어를 통합하여 사진 묘사, 스크린샷에 대한 질문 답변, 문서에서 텍스트 추출과 같은 작업을 수행합니다. 비전 언어 모델은 일반적으로 두 부분으로 작동합니다. 하나는 이미지를 처리하여 데이터로 변환하고, 다른 하나는 그 데이터를 해석하여 읽거나 들을 수 있는 응답을 생성합니다.
여러분은 이미 이와 같은 AI 혁신을 자신도 모르게 사용하고 있을지도 모릅니다. 영수증을 스캔하거나, 신분증을 읽고, 이미지 캡션을 생성하거나, 시력이 낮은 사용자가 화면과 상호작용하도록 돕는 앱들은 종종 백그라운드에서 조용히 실행되는 비전 언어 모델에 의존합니다.
Link to this sectionFastVLM이란 무엇인가?#
Apple은 다른 비전 언어 모델과 동일한 작업을 수행하면서도, 자사 기기에서 더 빠른 속도와 강력한 개인정보 보호, 최적화된 성능을 발휘하도록 FastVLM을 구축했습니다. 이 모델은 이미지 내용을 이해하고 텍스트로 응답할 수 있으며, 클라우드 서버에 의존하는 많은 모델과 달리 iPhone, iPad, Mac에서 완전히 실행될 수 있습니다.
일반적으로 VLM은 고해상도 이미지에서 더 나은 성능을 보입니다. 예를 들어 아래와 같이, FastVLM은 고해상도 이미지가 주어졌을 때만 도로 표지판을 “진입 금지(Do Not Enter)”로 올바르게 식별할 수 있었습니다. 그러나 고해상도 입력은 보통 모델 속도를 늦춥니다. 바로 이 지점이 FastViTHD가 차이를 만드는 곳입니다.

그림 1. 저해상도 대 고해상도 이미지에서의 FastVLM 성능. (출처)
Apple의 새로운 비전 인코더인 FastViTHD는 FastVLM이 고품질 이미지를 더 효율적으로 처리하여 메모리와 전력 소비를 줄이도록 돕습니다. 특히 FastViTHD는 작은 기기에서도 원활하게 실행될 만큼 가볍습니다.
또한 FastVLM은 FastVLM GitHub 저장소에서 공개적으로 이용 가능하며, 개발자는 소스 코드에 액세스하여 수정하고 Apple의 라이선스 약관에 따라 자신의 앱에서 사용할 수 있습니다.
Link to this sectionFastVLM과 다른 VLM 모델 비교#
다른 비전 언어 모델과 비교했을 때, FastVLM은 스마트폰이나 노트북 같은 일상적인 기기에서 실행되도록 최적화되어 있습니다. 성능 테스트에서 FastVLM은 LLaVA-OneVision-0.5B와 같은 모델보다 첫 단어 또는 출력을 최대 85배 더 빠르게 생성했습니다.

그림 2. FastVLM의 성능을 다른 모델과 비교. (출처)
FastVLM이 평가받은 표준 벤치마크 중 일부는 다음과 같습니다:
- DocVQA(문서 비전 질문 답변): 이 벤치마크는 스캔된 양식이나 페이지와 같은 문서 내의 텍스트 정보를 모델이 얼마나 잘 읽고 이해하는지 평가합니다.
- TextVQA(텍스트 기반 비전 질문 답변): 포함된 텍스트가 있는 이미지를 모델이 얼마나 정확하게 해석하고 관련 질문에 답변할 수 있는지 평가합니다.
- GQA(그래프 질문 답변): 이 작업은 이미지 내 객체와 장면 간의 관계를 이해하도록 하여 모델의 추론 능력을 테스트합니다.
- MMMU(대규모 다학제 멀티모달 이해): 시각적 이해와 텍스트 이해를 결합하여 다양한 학문 분야와 형식에 걸친 모델의 성능을 측정합니다.
- SeedBench(벤치마킹을 위한 강화 데이터 표준 평가): 이 벤치마크는 다중 도메인에 걸친 시각적 이해 및 추론 분야에서 모델의 일반적인 능력을 탐구합니다.
이러한 벤치마크 전반에서 FastVLM은 더 적은 리소스를 사용하면서도 경쟁력 있는 결과를 달성했습니다. 이는 휴대폰, 태블릿, 노트북과 같은 일상적인 기기에 실용적인 비전 AI를 제공합니다.
Link to this sectionFastVLM의 효율적인 비전 인코더: FastViTHD#
다음으로, FastVLM의 이미지 처리 성능에서 중요한 역할을 하는 비전 인코더인 FastViTHD를 자세히 살펴보겠습니다.
대부분의 비전 언어 모델은 이미지를 수천 개의 작은 조각(패치)으로 분할합니다. 이를 토큰이라고 합니다. 토큰이 많을수록 모델이 이미지를 이해하는 데 더 많은 시간과 전력이 필요합니다. 이는 휴대폰이나 노트북에서 속도를 저하시키는 원인이 될 수 있습니다.

그림 3. 비전 인코더가 이미지를 처리하는 방식. (출처)
FastViTHD는 전체 이미지를 이해하면서도 토큰 수를 줄임으로써 너무 많은 토큰을 처리할 때 발생하는 속도 저하를 방지합니다. 이 모델은 패턴과 관계를 모델링하는 데 뛰어난 Transformer와 시각 데이터 처리에 효율적인 합성곱 층(Convolutional layers)이라는 두 가지 접근 방식을 결합합니다. 그 결과 더 빠르고 메모리를 적게 사용하는 시스템이 완성되었습니다.
Apple에 따르면 FastViTHD는 기존의 일부 비전 인코더보다 최대 3.4배 더 작으면서도 높은 정확도를 유지합니다. 토큰 프루닝(처리 속도를 높이기 위해 덜 중요한 이미지 패치를 제거하는 것)과 같은 모델 최적화 기술에 의존하는 대신, 더 단순하고 능률적인 아키텍처를 통해 효율성을 달성합니다.
Link to this sectionFastVLM의 모델 변형 및 학습 파이프라인#
Apple은 FastVLM을 0.5B, 1.5B, 7B 파라미터(여기서 "B"는 10억 단위를 의미하며 모델의 학습 가능한 가중치 수를 나타냄)의 세 가지 크기로 출시했습니다. 각 버전은 다양한 유형의 기기에 맞게 설계되었습니다. 소형 모델은 휴대폰과 태블릿에서 실행할 수 있으며, 더 큰 7B 모델은 데스크톱이나 더 복잡한 작업에 더 적합합니다.
이를 통해 개발자는 앱에 가장 적합한 것을 선택할 수 있는 유연성을 갖게 됩니다. 동일한 기본 모델 아키텍처를 사용하면서도 모바일을 위한 빠르고 가벼운 앱을 만들거나, 대형 시스템을 위한 더 복잡한 기능을 구현할 수 있습니다.
Apple은 비전 모델과 언어 모델을 정렬하는 프레임워크인 LLaVA-1.5 파이프라인을 사용하여 FastVLM 모델 변형을 학습시켰습니다. 언어 구성 요소의 경우, 자연스럽고 일관된 텍스트를 생성하는 것으로 알려진 Qwen 및 Vicuna와 같은 기존 오픈 소스 모델을 사용하여 FastVLM을 평가했습니다. 이 설정을 통해 FastVLM은 단순하고 복잡한 이미지를 모두 처리하여 읽기 쉽고 관련성 있는 응답을 생성할 수 있습니다.
Link to this sectionFastVLM의 중요성: Apple의 효율적인 AI 접근 방식#
왜 FastVLM의 효율적인 이미지 처리가 중요한지 궁금할 수 있습니다. 이는 클라우드에 의존하지 않고도 앱이 실시간으로 얼마나 원활하게 작동할 수 있느냐에 달려 있습니다. FastVLM은 최대 1152 x 1152 픽셀의 고해상도 이미지를 처리하면서도 기기에서 직접 실행될 만큼 빠르고 가볍게 유지됩니다.
즉, 모든 작업을 로컬로 유지하면서도 카메라가 보는 것을 설명하거나, 영수증을 캡처 즉시 스캔하거나, 화면의 변화에 대응하는 앱을 만들 수 있습니다. 이는 교육, 접근성, 생산성 및 사진 분야에 특히 도움이 됩니다.
FastViTHD는 대형 이미지에서도 효율적이기 때문에 기기를 반응성 있게 유지하고 발열을 방지하는 데 도움이 됩니다. 가장 작은 모델을 포함한 모든 모델 크기에서 작동하며, 이는 엔트리급 iPhone에서도 실행됩니다. 따라서 동일한 AI 기능을 휴대폰, 태블릿, Mac 전반에서 사용할 수 있습니다.
Link to this sectionFastVLM의 응용 분야#
FastVLM은 속도, 효율성 및 온디바이스 개인정보 보호라는 주요 이점 덕분에 다양한 애플리케이션을 지원할 수 있습니다. 다음은 활용 사례들입니다:
-
문서 읽기: 영수증, 양식 또는 신분증을 스캔하여 관련 정보만 추출할 수 있습니다. 이미지의 특정 영역에 집중할 수 있어, 빠르고 정확한 텍스트 추출이 필요한 앱에 유용합니다.
-
이미지 캡션: 사진을 분석하여 이미지의 내용을 명확하게 묘사하는 설명을 생성할 수 있습니다. 이는 카메라 앱, 사진 갤러리 또는 실시간 시각적 이해가 필요한 모든 도구의 기능을 지원합니다.
-
접근성 지원: FastVLM은 시각 장애가 있거나 시력이 낮은 사용자를 위해 화면 콘텐츠를 설명하여 버튼, 메뉴 및 레이아웃 요소를 더 쉽게 탐색하고 사용할 수 있도록 합니다.
-
온디바이스 AI 어시스턴트: FastVLM은 화면에 있는 내용을 빠르게 이해해야 하는 AI 어시스턴트와 잘 연동됩니다. 기기에서 직접 실행되고 데이터를 비공개로 유지하기 때문에 클라우드에 정보를 보낼 필요 없이 텍스트 읽기, 버튼이나 아이콘 식별, 실시간 사용자 안내 등의 작업을 도울 수 있습니다.

그림 4. FastVLM은 텍스트 인식 및 비전 질문 답변에 활용될 수 있음. (출처)
Link to this section핵심 요약#
FastVLM은 Apple 기기에 온디바이스 비전 언어 AI를 도입하여 속도, 개인정보 보호 및 효율성을 결합했습니다. 가벼운 설계와 오픈 소스 릴리스를 통해 모바일 및 데스크톱 앱 전반에서 실시간 이미지 이해를 가능하게 합니다.
이는 AI를 일상적인 사용에서 더 실용적이고 접근하기 쉽게 만들며, 개발자가 유용하고 개인정보 중심적인 애플리케이션을 구축할 수 있는 탄탄한 기반을 제공합니다. 앞으로 비전 언어 모델은 AI를 더 반응성 있고 상황을 인식하며 일상적인 상황에서 더 큰 도움을 주는 방식으로 우리가 기술과 상호작용하는 방식에 중요한 역할을 할 것입니다.
AI에 대해 더 알아보려면 GitHub 저장소를 살펴보세요. 활발한 커뮤니티에 참여하여 자동차 AI 및 제조 분야의 비전 AI와 같은 분야의 혁신을 발견해 보세요. 오늘 바로 컴퓨터 비전을 시작하려면 라이선스 옵션을 확인해 보세요.






