Google의 PaliGemma 2: 고급 VLM 모델에 대한 통찰력
Google의 새로운 비전 언어 모델인 PaliGemma 2를 자세히 살펴보겠습니다. 이 모델은 이미지와 텍스트를 모두 이해하고 분석하는 데 도움을 줄 수 있습니다.

2024년 12월 5일, Google은 최첨단 비전-언어 모델(VLM)의 최신 버전인 PaliGemma 2를 발표했습니다. PaliGemma 2는 캡션 생성, 시각적 질의응답, 이미지 내 객체 탐지와 같이 이미지와 텍스트를 결합한 작업을 처리하도록 설계되었습니다.
다국어 캡션 생성과 객체 인식 분야에서 이미 강력한 도구였던 기존 PaliGemma를 기반으로 구축된 PaliGemma 2는 몇 가지 핵심적인 개선 사항을 제공합니다. 여기에는 더 커진 모델 크기, 더 높은 해상도의 이미지 지원, 복잡한 시각적 작업에서의 더 나은 성능이 포함됩니다. 이러한 업그레이드를 통해 더욱 유연하고 광범위한 용도에 효과적으로 활용될 수 있습니다.
본 아티클에서는 PaliGemma 2의 작동 원리, 주요 기능, 그리고 뛰어난 성능을 발휘하는 응용 분야를 자세히 살펴보겠습니다. 바로 시작해 보겠습니다!
Link to this sectionGemma 2에서 PaliGemma 2로#
PaliGemma 2는 SigLIP 비전 인코더와 Gemma 2 언어 모델이라는 두 가지 핵심 기술을 기반으로 구축되었습니다. SigLIP 인코더는 이미지나 비디오와 같은 시각적 데이터를 처리하여 모델이 분석할 수 있는 특징으로 분해합니다. 한편, Gemma 2는 텍스트를 처리하여 모델이 다국어를 이해하고 생성할 수 있도록 지원합니다. 이 둘이 결합하여 시각 정보와 텍스트 정보를 원활하게 해석하고 연결하도록 설계된 VLM이 완성됩니다.
PaliGemma 2가 크게 진보한 이유는 확장성과 범용성에 있습니다. 이전 버전과 달리 PaliGemma 2는 30억(3B), 100억(10B), 280억(28B) 파라미터의 세 가지 크기로 제공됩니다. 이러한 파라미터는 모델의 내부 설정과 같으며, 데이터의 효과적인 학습과 처리를 돕습니다. 또한 다양한 이미지 해상도(예: 빠른 작업을 위한 224 x 224 픽셀 및 정밀 분석을 위한 896 x 896)를 지원하여 여러 응용 분야에 적응할 수 있습니다.

그림 1. PaliGemma 2 개요.
Gemma 2의 고급 언어 기능과 SigLIP의 이미지 처리 기능을 통합함으로써 PaliGemma 2는 더욱 지능적으로 변했습니다. 다음과 같은 작업을 처리할 수 있습니다:
- 이미지 또는 비디오 캡션 생성: 이 모델은 시각 자료에 대한 상세한 텍스트 설명을 생성할 수 있어 자동 캡션 생성에 유용합니다.
- 시각적 질의응답: PaliGemma 2는 이미지 내의 객체, 인물 또는 동작을 식별하는 등 이미지에 기반한 질문에 답변할 수 있습니다.
- 객체 인식: 사진 속의 고양이, 테이블, 자동차를 구분하는 것처럼 이미지 내의 객체를 식별하고 라벨을 지정합니다.
PaliGemma 2는 단순히 이미지와 텍스트를 개별적으로 처리하는 것을 넘어, 의미 있는 방식으로 통합합니다. 예를 들어, “고양이가 테이블 위에 앉아 있다”는 것을 인식하거나 유명한 랜드마크를 인식하는 등 상황을 이해하고 맥락을 추가하여 객체를 식별할 수 있습니다.
Link to this sectionGoogle의 PaliGemma 2 VLM 모델의 작동 원리#
다음으로, 아래 이미지의 그래프를 사용하여 PaliGemma 2가 시각 및 텍스트 데이터를 어떻게 처리하는지 더 잘 이해해 보겠습니다. 이 그래프를 업로드하고 모델에게 “이 그래프는 무엇을 나타내는가?”라고 질문한다고 가정해 보겠습니다.

그림 2. PaliGemma 2의 기능 예시.
이 과정은 PaliGemma 2의 SigLIP 비전 인코더가 이미지를 분석하고 핵심 특징을 추출하는 것으로 시작됩니다. 그래프의 경우, 여기에는 축, 데이터 포인트 및 라벨과 같은 요소를 식별하는 작업이 포함됩니다. 인코더는 광범위한 패턴과 미세한 세부 사항을 모두 포착하도록 훈련되었습니다. 또한 광학 문자 인식(OCR)을 사용하여 이미지에 포함된 텍스트를 감지하고 처리합니다. 이러한 시각적 특징은 모델이 처리할 수 있는 수치적 표현인 토큰으로 변환됩니다. 그런 다음 이 토큰들은 선형 투영 레이어를 사용하여 조정되는데, 이 기법은 텍스트 데이터와 원활하게 결합될 수 있도록 보장합니다.
동시에 Gemma 2 언어 모델은 함께 제공된 쿼리를 처리하여 그 의미와 의도를 파악합니다. 쿼리의 텍스트는 토큰으로 변환되며, 이 토큰들은 SigLIP의 시각적 토큰과 결합되어 시각 및 텍스트 데이터를 연결하는 통합 형식인 멀티모달 표현을 생성합니다.
이 통합된 표현을 사용하여 PaliGemma 2는 자기회귀 디코딩(autoregressive decoding)을 통해 단계별로 응답을 생성합니다. 이는 모델이 이미 처리한 맥락을 기반으로 답변의 한 부분을 한 번에 하나씩 예측하는 방식입니다.
Link to this sectionPaliGemma 2의 주요 기능#
작동 원리를 이해했으므로 이제 PaliGemma 2를 신뢰할 수 있는 비전-언어 모델로 만드는 주요 기능을 살펴보겠습니다:
- 파인튜닝 유연성: 특정 데이터셋과 작업에 쉽게 적응하며, 이미지 캡션 생성, 공간 추론, 의료 영상과 같은 분야에서 우수한 성능을 발휘합니다.
- 다양한 훈련 데이터: WebLI 및 OpenImages와 같은 데이터셋으로 훈련되어 강력한 객체 인식 능력과 다국어 출력 기능을 갖추고 있습니다.
- OCR 통합: 이미지에서 텍스트를 추출하고 해석하는 광학 문자 인식을 포함하고 있어 문서 분석 및 기타 텍스트 기반 작업에 이상적입니다.
- 다국어 출력: 여러 언어로 캡션과 응답을 생성할 수 있어 글로벌 응용 분야에 최적화되어 있습니다.
- 도구와의 통합: Hugging Face Transformers, PyTorch, Keras와 같은 프레임워크와 호환되어 손쉬운 배포와 실험이 가능합니다.
Link to this sectionPaliGemma 2와 PaliGemma 비교: 무엇이 개선되었나?#
PaliGemma 1세대의 아키텍처를 살펴보는 것은 PaliGemma 2의 개선 사항을 확인하는 좋은 방법입니다. 가장 눈에 띄는 변경 사항 중 하나는 기존 Gemma 언어 모델을 Gemma 2로 교체한 것으로, 이는 성능과 효율성 모두에서 상당한 향상을 가져왔습니다.
9B 및 27B 파라미터 크기로 제공되는 Gemma 2는 업계 최고 수준의 정확도와 속도를 제공하는 동시에 배포 비용을 절감하도록 설계되었습니다. 이는 강력한 GPU부터 보다 접근하기 쉬운 구성에 이르기까지, 다양한 하드웨어 설정 전반에 걸쳐 추론 효율성을 최적화한 재설계된 아키텍처를 통해 달성되었습니다.

그림 3. PaliGemma 2의 1세대 되돌아보기.
결과적으로 PaliGemma 2는 매우 정확한 모델입니다. PaliGemma 2 10B 버전은 기존 모델의 34.3 대비 20.3이라는 더 낮은 비수반 문장(NES) 점수를 기록하여 출력의 사실적 오류가 줄었습니다. 이러한 발전 덕분에 PaliGemma 2는 상세한 캡션 생성부터 시각적 질의응답까지, 더 다양한 범위의 응용 분야에 적응할 수 있는 확장성과 정밀성을 갖추게 되었습니다.
Link to this sectionPaliGemma 2의 응용 분야: VLM 모델의 실세계 활용 사례#
PaliGemma 2는 시각적 이해와 언어 이해를 원활하게 결합하여 산업을 재정의할 잠재력을 가지고 있습니다. 예를 들어, 접근성 측면에서 객체, 장면, 공간 관계에 대한 상세한 설명을 생성하여 시각 장애인에게 중요한 지원을 제공할 수 있습니다. 이 기능은 사용자가 환경을 더 잘 이해하도록 도와 일상적인 작업에서 더 큰 독립성을 제공합니다.

그림 4. PaliGemma 2는 세상을 더 접근하기 쉬운 곳으로 만들 수 있습니다.
접근성 외에도 PaliGemma 2는 다음과 같은 다양한 산업에 영향을 미치고 있습니다:
- 전자상거래: 이 모델은 이미지 내 항목을 분석하고 설명하여 제품 분류를 강화함으로써 재고 관리를 단순화하고 사용자의 검색 경험을 개선합니다.
- 의료: X-레이 및 MRI와 같은 의료 영상과 임상 노트를 함께 해석하여 의료 전문가가 더 정확하고 정보에 입각한 진단을 내릴 수 있도록 지원합니다.
- 교육: PaliGemma 2는 이미지에 대한 캡션을 생성하고 맥락 정보를 제공하여 교육자가 설명적이고 접근 가능한 학습 자료를 만들 수 있도록 돕습니다.
- 콘텐츠 제작: 멀티미디어 콘텐츠에 대한 캡션 및 시각적 설명 생성 과정을 자동화하여 제작자의 시간을 절약해 줍니다.
Link to this section직접 체험해 보기: PaliGemma 2#
PaliGemma 2를 사용해 보려면 Hugging Face의 대화형 데모부터 시작할 수 있습니다. 이미지 캡션 생성 및 시각적 질의응답과 같은 작업에서 모델의 기능을 탐색할 수 있습니다. 이미지를 업로드하고 모델에게 관련 질문을 하거나 장면 설명을 요청하기만 하면 됩니다.

그림 5. PaliGemma 2 데모 (출처: Hugging Face).
더 깊이 알아보고 싶다면, 직접 실습하는 방법은 다음과 같습니다:
- 사전 훈련 모델: Hugging Face 및 Kaggle과 같은 플랫폼에서 사전 훈련된 모델과 코드에 액세스할 수 있습니다. 이러한 리소스는 모델 작업을 시작하는 데 필요한 모든 것을 제공합니다.
- 노트북: PaliGemma 2를 익힐 수 있도록 포괄적인 문서와 예제 노트북이 준비되어 있습니다. 추론 예제로 시작하여 특정 작업을 위해 자체 데이터셋으로 모델을 파인튜닝하는 실험을 할 수 있습니다.
- 통합: PaliGemma 2는 Hugging Face Transformers, Keras, PyTorch, JAX 및 Gemma.cpp와 같이 널리 사용되는 프레임워크와 호환되므로 기존 워크플로우에 쉽게 통합할 수 있습니다.
Link to this sectionGoogle의 PaliGemma 2의 장단점#
PaliGemma 2를 시작하는 방법을 이해했으니, 이 모델들을 사용할 때 명심해야 할 주요 장점과 단점을 자세히 살펴보겠습니다.
PaliGemma 2가 비전-언어 모델로서 돋보이는 이유는 다음과 같습니다:
- 효율성 향상: Gemma 2의 최적화된 아키텍처를 활용하여 PaliGemma 2는 배포 비용을 최소화하면서 높은 성능을 제공합니다.
- 향상된 안전 기능: PaliGemma 2는 편향성을 줄이기 위한 사전 훈련 데이터의 강력한 필터링과 안전 벤치마크에 대한 엄격한 평가 등 훈련 과정에서 상당한 안전 개선 사항을 포함합니다.
- 소규모 구성을 위한 낮은 지연 시간: 3B 모델은 추론 시간이 빨라 전자상거래 제품 추천이나 실시간 지원 시스템과 같이 속도가 중요한 사용 사례에 적합합니다.
반면, PaliGemma 2가 직면할 수 있는 몇 가지 제한 사항은 다음과 같습니다:
- 지연 시간: 강력한 성능을 발휘하지만, 대규모 모델은 실시간 대화형 AI 시스템과 같이 즉각적인 응답이 필요한 작업에 배포될 경우 지연 시간 문제가 발생할 수 있습니다.
- 대규모 데이터셋 의존성: PaliGemma 2의 성능은 훈련 데이터셋의 품질 및 다양성과 밀접하게 연결되어 있어, 훈련 데이터에 포함되지 않은 소외된 도메인이나 언어에서는 효과가 제한될 수 있습니다.
- 높은 리소스 요구 사항: 최적화에도 불구하고 10B 및 28B 파라미터 버전은 상당한 컴퓨팅 파워를 요구하므로 리소스가 제한적인 소규모 조직에서는 접근하기 어려울 수 있습니다.
Link to this section핵심 요약#
PaliGemma 2는 비전-언어 모델링 분야의 흥미로운 진보이며 향상된 확장성, 파인튜닝 유연성, 정확성을 제공합니다. 이 모델은 접근성 솔루션과 전자상거래부터 의료 진단 및 교육에 이르는 다양한 분야에서 유용한 도구로 활용될 수 있습니다.
컴퓨팅 요구 사항이나 고품질 데이터에 대한 의존성과 같은 제한 사항이 존재하지만, 시각 및 텍스트 데이터를 통합하는 복잡한 문제를 해결하는 데 있어 실용적인 선택지입니다. PaliGemma 2는 연구자와 개발자가 멀티모달 응용 분야에서 AI의 잠재력을 탐색하고 확장할 수 있는 강력한 기반을 제공합니다.
저희 GitHub 리포지토리와 커뮤니티를 확인하여 AI 대화에 동참해 보세요. AI가 농업 및 의료 분야에서 어떻게 발전하고 있는지 읽어보세요! 🚀






