Google의 새로운 비전 언어 모델인 PaliGemma 2를 자세히 살펴보겠습니다. 이 모델은 이미지와 텍스트를 모두 이해하고 분석하는 데 도움이 될 수 있습니다.
Google의 새로운 비전 언어 모델인 PaliGemma 2를 자세히 살펴보겠습니다. 이 모델은 이미지와 텍스트를 모두 이해하고 분석하는 데 도움이 될 수 있습니다.
2024년 12월 5일, Google은 최첨단 비전-언어 모델(VLM)의 최신 버전인 PaliGemma 2를 출시했습니다. PaliGemma 2는 캡션 생성, 시각적 질문 응답, 시각 자료에서 객체 감지 등 이미지와 텍스트를 결합한 작업을 처리하도록 설계되었습니다.
이미 다국어 캡션 및 객체 인식에 강력한 도구였던 기존 PaliGemma를 기반으로 하는 PaliGemma 2는 몇 가지 주요 개선 사항을 제공합니다. 여기에는 더 큰 모델 크기, 더 높은 해상도 이미지 지원, 복잡한 시각적 작업에서 더 나은 성능이 포함됩니다. 이러한 업그레이드를 통해 광범위한 용도로 더욱 유연하고 효과적으로 사용할 수 있습니다.
이 기사에서는 PaliGemma 2의 작동 방식, 주요 기능 및 뛰어난 응용 분야를 포함하여 PaliGemma 2를 자세히 살펴보겠습니다. 시작해 보겠습니다!
PaliGemma 2는 SigLIP 비전 인코더와 Gemma 2 언어 모델이라는 두 가지 핵심 기술을 기반으로 구축되었습니다. SigLIP 인코더는 이미지나 비디오와 같은 시각적 데이터를 처리하고 모델이 분석할 수 있는 기능으로 분해합니다. 한편, Gemma 2는 텍스트를 처리하여 모델이 다국어 언어를 이해하고 생성할 수 있도록 합니다. 이들은 함께 시각적 정보와 텍스트 정보를 원활하게 해석하고 연결하도록 설계된 VLM을 형성합니다.
PaliGemma 2를 획기적인 발전으로 만드는 것은 확장성과 다재다능함입니다. 원래 버전과 달리 PaliGemma 2는 30억(3B), 100억(10B) 및 280억(28B) 개의 파라미터의 세 가지 크기로 제공됩니다. 이러한 파라미터는 모델의 내부 설정과 같으며 모델이 데이터를 효과적으로 학습하고 처리하는 데 도움이 됩니다. 또한 다양한 이미지 해상도(예: 빠른 작업을 위한 224 x 224 픽셀, 상세 분석을 위한 896 x 896 픽셀)를 지원하므로 다양한 응용 분야에 적응할 수 있습니다.

Gemma 2의 고급 언어 기능과 SigLIP의 이미지 처리 기능을 통합하면 PaliGemma 2가 훨씬 더 지능적으로 됩니다. 다음과 같은 작업을 처리할 수 있습니다.
PaliGemma 2는 이미지와 텍스트를 개별적으로 처리하는 것을 넘어 의미 있는 방식으로 함께 제공합니다. 예를 들어, '고양이가 테이블 위에 앉아 있다'는 장면의 관계를 인식하거나 유명한 랜드마크를 인식하는 것과 같이 컨텍스트를 추가하면서 객체를 식별할 수 있습니다.
다음으로 아래 이미지에 표시된 그래프를 사용하여 PaliGemma 2가 시각적 및 텍스트 데이터를 처리하는 방식을 더 잘 이해하기 위한 예제를 살펴보겠습니다. 이 그래프를 업로드하고 모델에 '이 그래프는 무엇을 나타내나요?'라고 묻는다고 가정해 보겠습니다.

이 과정은 PaliGemma 2의 SigLIP 비전 인코더가 이미지를 분석하고 핵심 특징을 추출하는 것으로 시작합니다. 그래프의 경우 축, 데이터 포인트, 레이블과 같은 요소를 식별합니다. 인코더는 광범위한 패턴과 미세한 세부 사항을 모두 캡처하도록 훈련됩니다. 또한 광학 문자 인식(OCR)을 사용하여 이미지에 포함된 텍스트를 감지하고 처리합니다. 이러한 시각적 특징은 모델이 처리할 수 있는 숫자 표현인 토큰으로 변환됩니다. 그런 다음 이러한 토큰은 선형 투영 레이어를 사용하여 조정되는데, 이는 텍스트 데이터와 원활하게 결합되도록 하는 기술입니다.
동시에 Gemma 2 언어 모델은 첨부된 쿼리를 처리하여 그 의미와 의도를 파악합니다. 쿼리의 텍스트는 토큰으로 변환되고, 이러한 토큰은 SigLIP의 시각적 토큰과 결합되어 시각적 데이터와 텍스트 데이터를 연결하는 통합 형식인 멀티모달 표현을 생성합니다.
이 통합된 표현을 사용하여 PaliGemma 2는 자동 회귀 디코딩을 통해 단계별로 응답을 생성합니다. 이는 모델이 이미 처리한 컨텍스트를 기반으로 답변의 한 부분을 한 번에 예측하는 방법입니다.
작동 방식을 이해했으니 이제 PaliGemma 2를 신뢰할 수 있는 비전-언어 모델로 만드는 주요 기능을 살펴보겠습니다.
PaliGemma 2의 개선 사항을 확인하는 좋은 방법은 PaliGemma 첫 번째 버전의 아키텍처를 살펴보는 것입니다. 가장 눈에 띄는 변화 중 하나는 원래 Gemma 언어 모델을 Gemma 2로 대체한 것인데, 이는 성능과 효율성 모두에서 상당한 개선을 가져왔습니다.
9B 및 27B 파라미터 크기로 제공되는 Gemma 2는 강력한 GPU에서부터 접근성이 더 좋은 구성에 이르기까지 다양한 하드웨어 설정에서 추론 효율성을 위해 재설계된 아키텍처를 통해 배포 비용을 줄이면서 동급 최고의 정확도와 속도를 제공하도록 설계되었습니다.

결과적으로 PaliGemma 2는 매우 정확한 모델입니다. PaliGemma 2의 10B 버전은 원래 모델의 34.3에 비해 더 낮은 NES(Non-Entailment Sentence) 점수인 20.3을 달성하여 출력에서 사실적 오류가 더 적습니다. 이러한 발전으로 PaliGemma 2는 상세한 캡션 작성에서 시각적 질의 응답에 이르기까지 더 광범위한 애플리케이션에 더욱 확장 가능하고 정확하며 적응 가능하게 되었습니다.
PaliGemma 2는 시각적 이해와 언어 이해를 완벽하게 결합하여 산업을 재정의할 잠재력을 가지고 있습니다. 예를 들어 접근성과 관련하여 객체, 장면 및 공간 관계에 대한 자세한 설명을 생성하여 시각 장애가 있는 개인에게 중요한 지원을 제공할 수 있습니다. 이 기능은 사용자가 자신의 환경을 더 잘 이해하도록 돕고 일상적인 작업에서 더 큰 독립성을 제공합니다.

접근성 외에도 PaliGemma 2는 다음을 포함한 다양한 산업 전반에 걸쳐 영향을 미치고 있습니다.
PaliGemma 2를 사용해 보려면 Hugging Face의 대화형 데모로 시작할 수 있습니다. 이를 통해 이미지 캡션 및 시각적 질의 응답과 같은 작업에서 기능을 탐색할 수 있습니다. 이미지를 업로드하고 모델에 질문하거나 장면 설명을 요청하기만 하면 됩니다.

더 자세히 알고 싶으시다면, 직접 사용해 볼 수 있는 방법은 다음과 같습니다.
PaliGemma 2를 시작하는 방법을 이해했으니, 이러한 모델을 사용할 때 염두에 두어야 할 주요 강점과 단점을 자세히 살펴보겠습니다.
PaliGemma 2를 시각-언어 모델로서 돋보이게 만드는 요소는 다음과 같습니다.
한편, PaliGemma 2가 직면할 수 있는 몇 가지 제한 사항은 다음과 같습니다.
PaliGemma 2는 향상된 확장성, 미세 조정 유연성 및 정확성을 제공하는 시각-언어 모델링의 흥미로운 발전입니다. 접근성 솔루션 및 전자 상거래에서 의료 진단 및 교육에 이르기까지 광범위한 애플리케이션을 위한 귀중한 도구 역할을 할 수 있습니다.
계산 요구 사항 및 고품질 데이터에 대한 의존성과 같은 제한 사항이 있지만, 그 강점은 시각적 및 텍스트 데이터를 통합하는 복잡한 작업을 해결하는 데 실용적인 선택이 됩니다. PaliGemma 2는 연구원과 개발자가 멀티모달 애플리케이션에서 AI의 잠재력을 탐색하고 확장할 수 있는 강력한 기반을 제공할 수 있습니다.
GitHub 저장소 및 커뮤니티를 확인하여 AI 대화에 참여하십시오. AI가 농업 및 의료 분야에서 어떻게 발전하고 있는지 알아보세요! 🚀