CVPR 2025 컨퍼런스에서 Apple은 FastVLM이라는 새로운 오픈소스 AI 모델을 소개했습니다. 이 모델은 이미지와 언어를 모두 이해하도록 설계되었으며 iPhone, iPad, Mac과 같은 Apple 기기에서 실행됩니다. 즉, 데이터를 클라우드로 전송하지 않고도 스마트한 결과를 신속하게 제공할 수 있습니다.
FastVLM이 특히 흥미로운 이유는 빠르고 효율적이라는 점입니다. Apple은 모델에서 더 적은 메모리와 전력을 사용하면서 고품질 이미지를 해석하는 데 도움이 되는 새로운 비전 인코더인 FastViTHD를 개발했습니다. 모든 처리가 기기에서 로컬로 이루어지므로 사용자 개인 정보를 보호하면서 응답 시간을 단축할 수 있습니다.
이 글에서는 FastVLM의 작동 방식과 차별화 요소, 그리고 이번 Apple 릴리스가 디바이스의 일상적인 AI 애플리케이션에 중요한 진전이 될 수 있는 이유에 대해 살펴봅니다.
FastVLM의 특별한 기능에 대해 자세히 알아보기 전에 이름에 포함된 'VLM'이 무엇을 의미하는지에 대해 살펴보겠습니다. 이는 시각적 콘텐츠를 이해하고 언어와 연결하도록 설계된 비전 언어 모델을 의미합니다.
VLM은 시각적 이해와 언어를 결합하여 사진 설명, 스크린샷에 대한 질문 답변, 문서에서 텍스트 추출 등의 작업을 수행할 수 있습니다. 비전 언어 모델은 일반적으로 이미지를 처리하여 데이터로 변환하고, 다른 하나는 해당 데이터를 해석하여 읽거나 들을 수 있는 응답을 생성하는 두 부분으로 작동합니다.
여러분도 모르는 사이에 이미 이런 종류의 AI 혁신을 사용하고 있을지도 모릅니다. 영수증을 스캔하고, 신분증을 읽고, 이미지 캡션을 생성하거나, 시력이 약한 사람들이 화면과 상호작용할 수 있도록 돕는 앱은 백그라운드에서 조용히 실행되는 시각 언어 모델에 의존하는 경우가 많습니다.
Apple은 다른 비전 언어 모델과 동일한 작업을 수행하지만 더 빠른 속도, 강력한 개인정보 보호, 자체 기기에서 최적화된 성능을 제공하기 위해 FastVLM을 구축했습니다. 이미지의 내용을 이해하고 텍스트로 응답할 수 있지만, 클라우드 서버에 의존하는 많은 모델과 달리 FastVLM은 전적으로 iPhone, iPad 또는 Mac에서 실행할 수 있습니다.
VLM은 일반적으로 고해상도 이미지에서 더 나은 성능을 발휘합니다. 예를 들어, 아래 그림과 같이, 고해상도 버전의 이미지가 주어졌을 때만 FastVLM은 도로 표지판을 "진입 금지"로 정확하게 식별할 수 있습니다. 그러나 고해상도 입력은 일반적으로 모델 속도를 저하시킵니다. 바로 이 부분에서 FastViTHD가 차이를 만듭니다.
Apple의 새로운 비전 인코더인 FastViTHD는 더 적은 메모리와 전력을 사용하면서 고품질 이미지를 보다 효율적으로 처리할 수 있도록 지원합니다. 특히 FastViTHD는 소형 기기에서도 원활하게 실행할 수 있을 만큼 가볍습니다.
또한 FastVLM은 개발자가 소스 코드에 액세스하여 변경하고 Apple의 라이선스 약관에 따라 자신의 앱에서 사용할 수 있는 FastVLM GitHub 리포지토리에서 공개적으로 사용할 수 있습니다.
다른 비전 언어 모델과 비교했을 때 FastVLM은 스마트폰이나 노트북과 같은 일상적인 기기에서 실행되도록 최적화되어 있습니다. 성능 테스트에서 FastVLM은 LLaVA-OneVision-0.5B와 같은 모델보다 최대 85배 빠르게 첫 단어 또는 출력을 생성했습니다.
다음은 FastVLM이 평가된 몇 가지 표준 벤치마크입니다:
이러한 벤치마크에서 FastVLM은 더 적은 리소스를 사용하면서도 경쟁력 있는 결과를 달성했습니다. 휴대폰, 태블릿, 노트북과 같은 일상적인 디바이스에 실용적인 시각적 AI를 제공합니다.
다음으로 FastVLM의 이미지 처리 성능에 중요한 역할을 하는 비전 인코더인 FastViTHD에 대해 자세히 살펴보겠습니다.
대부분의 비전 언어 모델은 이미지를 토큰이라고 하는 수천 개의 작은 패치로 분할합니다. 토큰이 많을수록 모델이 이미지를 이해하는 데 더 많은 시간과 파워가 필요합니다. 이로 인해 특히 휴대폰이나 노트북에서 속도가 느려질 수 있습니다.
FastViTHD는 전체 이미지를 이해하면서도 더 적은 수의 토큰을 사용해 너무 많은 토큰을 처리할 때 발생하는 속도 저하를 방지합니다. 패턴과 관계 모델링에 능숙한 트랜스포머와 시각적 데이터 처리에 효율적인 컨볼루션 레이어라는 두 가지 접근 방식을 결합한 것입니다. 그 결과 더 빠르게 작동하고 더 적은 메모리를 사용하는 시스템이 탄생했습니다.
Apple에 따르면 FastViTHD는 기존 비전 인코더보다 최대 3.4배 더 작으면서도 높은 정확도를 유지합니다. 토큰 프루닝(처리 속도를 높이기 위해 덜 중요한 이미지 패치를 제거하는 것)과 같은 모델 최적화 기술에 의존하는 대신 더 단순하고 간소화된 아키텍처를 통해 효율성을 달성합니다.
Apple은 세 가지 크기의 FastVLM을 출시했습니다: 0.5B, 1.5B 및 7B 파라미터(여기서 "B"는 모델에서 훈련 가능한 가중치의 수를 나타내는 10억 개를 의미함)입니다. 각 버전은 다양한 유형의 디바이스에 적합하도록 설계되었습니다. 더 작은 모델은 휴대폰과 태블릿에서 실행할 수 있으며, 더 큰 7B 모델은 데스크톱이나 더 까다로운 작업에 더 적합합니다.
이를 통해 개발자는 자신의 앱에 가장 적합한 것을 유연하게 선택할 수 있습니다. 동일한 기본 모델 아키텍처를 사용하면서 모바일용으로 빠르고 가벼운 앱을 만들거나 대규모 시스템용으로 더 복잡한 앱을 만들 수 있습니다.
Apple은 비전 및 언어 모델 정렬을 위한 프레임워크인 LLaVA-1.5 파이프라인을 사용하여 FastVLM 모델 변형을 훈련했습니다. 언어 구성 요소의 경우, 자연스럽고 일관된 텍스트를 생성하는 것으로 알려진 Qwen 및 Vicuna와 같은 기존 오픈 소스 모델을 사용하여 FastVLM을 평가했습니다. 이러한 설정을 통해 FastVLM은 단순한 이미지와 복잡한 이미지를 모두 처리하고 가독성 있고 관련성 있는 응답을 생성할 수 있습니다.
FastVLM의 효율적인 이미지 처리가 왜 중요한지 궁금할 수 있습니다. 클라우드에 의존하지 않고도 앱이 얼마나 원활하게 실시간으로 작동할 수 있는지가 관건입니다. FastVLM은 최대 1152×1152픽셀의 고해상도 이미지를 처리하면서도 디바이스에서 직접 실행할 수 있을 만큼 빠르고 가볍습니다.
즉, 앱이 카메라에 보이는 것을 설명하고, 캡처된 영수증을 스캔하거나, 화면의 변경 사항에 응답하는 등 모든 것을 로컬로 유지하면서 사용할 수 있습니다. 특히 교육, 접근성, 생산성, 사진 촬영과 같은 분야에 유용합니다.
FastViTHD는 대용량 이미지에서도 효율적이기 때문에 기기의 반응 속도와 성능을 유지하는 데 도움이 됩니다. 보급형 iPhone에서 실행되는 가장 작은 모델을 포함하여 모든 모델 크기에서 작동합니다. 즉, 휴대폰, 태블릿, Mac에서 동일한 AI 기능을 사용할 수 있습니다.
속도, 효율성, 온디바이스 개인 정보 보호와 같은 주요 이점 덕분에 FastVLM은 다양한 애플리케이션을 지원할 수 있습니다. 다음은 몇 가지 사용 방법입니다:
온디바이스 AI 어시스턴트: FastVLM은 화면의 내용을 빠르게 이해해야 하는 AI 어시스턴트와 잘 작동할 수 있습니다. 장치에서 직접 실행되고 데이터를 비공개로 유지하므로 클라우드로 정보를 전송할 필요 없이 텍스트 읽기, 버튼 또는 아이콘 식별, 실시간 사용자 안내와 같은 작업을 지원할 수 있습니다.
FastVLM은 속도, 개인정보 보호, 효율성을 결합한 온디바이스 비전 언어 AI를 Apple 기기에 제공합니다. 가벼운 디자인과 오픈 소스 릴리스를 통해 모바일 및 데스크톱 앱에서 실시간 이미지 이해를 지원합니다.
이를 통해 AI를 일상에서 더욱 실용적이고 쉽게 사용할 수 있으며, 개발자는 유용하고 개인정보 보호에 중점을 둔 애플리케이션을 구축할 수 있는 탄탄한 기반을 마련할 수 있습니다. 앞으로 비전 언어 모델은 우리가 기술과 상호작용하는 방식에 중요한 역할을 할 것이며, AI가 일상적인 상황에서 더욱 반응하고 상황을 인식하며 도움이 될 수 있도록 만들 것입니다.
GitHub 리포지토리를 살펴보고 AI에 대해 자세히 알아보세요. 활발한 커뮤니티에 참여하여 자동차 산업의 AI와 제조업의 비전 AI와 같은 분야의 혁신 사례를 살펴보세요. 지금 바로 컴퓨터 비전을 시작하려면 라이선스 옵션을 확인하세요.