Google PaliGemma 2: Informações sobre o modelo de linguagem de visão

Em 5 de dezembro de 2024, Google apresentou o PaliGemma 2, a versão mais recente do seu modelo de visão-linguagem (VLM) de ponta. O PaliGemma 2 foi concebido para lidar com tarefas que combinam imagens e texto, como a criação de legendas, a resposta a perguntas visuais e a deteção de objectos em imagens.

Baseado no PaliGemma original, que já era uma ferramenta poderosa para legendas multilíngues e reconhecimento de objetos, o PaliGemma 2 traz várias melhorias importantes. Estas incluem tamanhos de modelo maiores, suporte para imagens de maior resolução e melhor desempenho em tarefas visuais complexas. Essas atualizações o tornam ainda mais flexível e eficaz para uma ampla gama de usos.

Neste artigo, analisaremos mais de perto o PaliGemma 2, incluindo como ele funciona, seus principais recursos e as aplicações onde ele se destaca. Vamos começar!

De Gemma 2 para PaliGemma 2

O PaliGemma 2 é construído sobre duas tecnologias principais: o codificador de visão SigLIP e o modelo de linguagem Gemma 2. O codificador SigLIP processa dados visuais, como imagens ou vídeos, e divide-os em recursos que o modelo pode analisar. Enquanto isso, o Gemma 2 lida com texto, permitindo que o modelo compreenda e gere linguagem multilingue. Juntos, eles formam um VLM, projetado para interpretar e conectar informações visuais e de texto de forma integrada.

O que torna o PaliGemma 2 um grande avanço é a sua escalabilidade e versatilidade. Ao contrário da versão original, o PaliGemma 2 vem em três tamanhos: 3 bilhões (3B), 10 bilhões (10B) e 28 bilhões (28B) de parâmetros. Esses parâmetros são como as configurações internas do modelo, ajudando-o a aprender e processar dados de forma eficaz. Ele também suporta diferentes resoluções de imagem (por exemplo, 224 x 224 pixels para tarefas rápidas e 896 x 896 para análises detalhadas), tornando-o adaptável para várias aplicações.

‍

A integração dos recursos avançados de linguagem do Gemma 2 com o processamento de imagem do SigLIP torna o PaliGemma 2 significativamente mais inteligente. Ele pode lidar com tarefas como:

Legendar imagens ou vídeos: O modelo pode gerar descrições textuais detalhadas de recursos visuais, tornando-o útil para criar legendas automaticamente.
‍
Resposta visual a perguntas: O PaliGemma 2 pode responder a perguntas com base em imagens, como identificar objetos, pessoas ou ações numa cena.
‍
Reconhecimento de objetos: Identifica e rotula objetos dentro de uma imagem, como distinguir entre um gato, uma mesa ou um carro em uma foto.

O PaliGemma 2 vai além do processamento de imagens e texto separadamente - ele junta-os de forma significativa. Por exemplo, pode compreender relações numa cena, como reconhecer que "O gato está sentado na mesa", ou identificar objetos enquanto adiciona contexto, como reconhecer um ponto de referência famoso.

Como funcionam os modelos PaliGemma 2 VLM da Google

Em seguida, vamos analisar um exemplo usando o gráfico mostrado na imagem abaixo para entender melhor como o PaliGemma 2 processa dados visuais e textuais. Digamos que você carregue este gráfico e pergunte ao modelo: "O que este gráfico representa?"

Fig. 2. Um exemplo das capacidades do PaliGemma 2.
‍

O processo começa com o codificador de visão SigLIP do PaliGemma 2 para analisar imagens e extrair as principais caraterísticas. No caso de um gráfico, isto inclui a identificação de elementos como eixos, pontos de dados e rótulos. O codificador é treinado para capturar padrões amplos e detalhes finos. Também utiliza o reconhecimento ótico de caracteres (OCR) para detect e processar qualquer texto incorporado na imagem. Estas caraterísticas visuais são convertidas em tokens, que são representações numéricas que o modelo pode processar. Estes tokens são depois ajustados utilizando uma camada de projeção linear, uma técnica que garante que podem ser combinados sem problemas com dados textuais.

Ao mesmo tempo, o modelo de linguagem Gemma 2 processa a consulta que o acompanha para determinar o seu significado e intenção. O texto da consulta é convertido em tokens, e estes são combinados com os tokens visuais do SigLIP para criar uma representação multimodal, um formato unificado que liga dados visuais e textuais.

Utilizando esta representação integrada, o PaliGemma 2 gera uma resposta passo a passo através da descodificação autorregressiva, um método onde o modelo prevê uma parte da resposta de cada vez com base no contexto que já processou.

Principais capacidades do PaliGemma 2

Agora que entendemos como funciona, vamos explorar os principais recursos que tornam o PaliGemma 2 um modelo de visão-linguagem confiável:

Flexibilidade de ajuste fino: Adapta-se facilmente a conjuntos de dados e tarefas específicas, apresentando bom desempenho em aplicações como legendagem de imagens, raciocínio espacial e imagens médicas.
‍
Dados de treinamento diversificados: Treinado em conjuntos de dados como WebLI e OpenImages, dando-lhe fortes habilidades de reconhecimento de objetos e capacidades de saída multilíngue.
‍
Integração de OCR: Inclui reconhecimento óptico de caracteres para extrair e interpretar texto de imagens, tornando-o ideal para análise de documentos e outras tarefas baseadas em texto.
‍
Saídas multilíngues: Gera legendas e respostas em vários idiomas, ideal para aplicações globais.
‍
Integração com ferramentas: É compatível com estruturas como Hugging Face Transformers, PyTorch e Keras, permitindo uma fácil implementação e experimentação.

Comparando PaliGemma 2 e PaliGemma: O que foi aprimorado?

Analisar a arquitetura da primeira versão do PaliGemma é uma boa maneira de ver as melhorias do PaliGemma 2. Uma das mudanças mais notáveis é a substituição do modelo de linguagem Gemma original pelo Gemma 2, que traz melhorias substanciais tanto no desempenho quanto na eficiência.

O Gemma 2, disponível nos tamanhos de 9B e 27B parâmetros, foi projetado para oferecer precisão e velocidade líderes na sua classe, ao mesmo tempo que reduz os custos de implementação. Ele consegue isso através de uma arquitetura redesenhada, otimizada para a eficiência da inferência em várias configurações de hardware, desde GPUs poderosas até configurações mais acessíveis.

Fig 3. Olhando para trás na primeira versão do PaliGemma 2.

‍

Como resultado, o PaliGemma 2 é um modelo altamente preciso. A versão de 10B do PaliGemma 2 alcança uma pontuação de Sentença de Não Implicação (NES) mais baixa, de 20,3, em comparação com os 34,3 do modelo original, o que significa menos erros factuais nas suas saídas. Estes avanços tornam o PaliGemma 2 mais escalável, preciso e adaptável a uma gama mais vasta de aplicações, desde legendagem detalhada a resposta a perguntas visuais.

Aplicações do PaliGemma 2: Usos reais para modelos VLM

O PaliGemma 2 tem o potencial de redefinir indústrias, combinando perfeitamente a compreensão visual e da linguagem. Por exemplo, no que diz respeito à acessibilidade, pode gerar descrições detalhadas de objetos, cenas e relações espaciais, fornecendo assistência crucial a indivíduos com deficiência visual. Esta capacidade ajuda os utilizadores a compreender melhor os seus ambientes, oferecendo maior independência quando se trata de tarefas quotidianas.

Fig 4. PaliGemma 2 pode tornar o mundo um lugar mais acessível.

‍

Além da acessibilidade, o PaliGemma 2 está causando impacto em vários setores, incluindo:

E-commerce: O modelo aprimora a categorização de produtos, analisando e descrevendo itens em imagens, o que simplifica o gerenciamento de estoque e melhora a experiência de pesquisa para os usuários.
‍
Saúde: Ele oferece suporte a profissionais médicos interpretando imagens médicas, como raios-X e ressonâncias magnéticas, juntamente com notas clínicas para fornecer diagnósticos mais precisos e informados.
‍
Educação: PaliGemma 2 ajuda educadores a criar materiais de aprendizagem descritivos e acessíveis, gerando legendas e fornecendo informações contextuais para imagens.
‍
Criação de Conteúdo: O modelo automatiza o processo de geração de legendas e descrições visuais para conteúdo multimídia, economizando tempo para os criadores.

Experimente você mesmo: PaliGemma 2

Para experimentar o PaliGemma 2, pode começar com a demonstração interactiva do Hugging Face. Esta permite-lhe explorar as suas capacidades em tarefas como a legendagem de imagens e a resposta a perguntas visuais. Basta carregar uma imagem e fazer perguntas ao modelo sobre a mesma ou pedir uma descrição da cena.

Fig 5. Uma demonstração do PaliGemma 2 (Fonte: huggingface).

‍

Se quiser aprofundar, aqui está como pode colocar a mão na massa:

Modelos pré-treinados: Pode aceder a modelos e códigos pré-treinados a partir de plataformas como Hugging Face e Kaggle. Estes recursos fornecem tudo o que precisa para começar a trabalhar com o modelo.
‍
Notebooks: Há documentação abrangente e notebooks de exemplo para se familiarizar com o PaliGemma 2. Você pode começar com exemplos de inferência e experimentar o ajuste fino do modelo em seu próprio conjunto de dados para tarefas específicas.
‍
Integrações: O PaliGemma 2 é compatível com frameworks amplamente utilizados, como Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp, permitindo integrá-lo aos seus fluxos de trabalho existentes sem esforço.

Prós e contras do PaliGemma 2 da Google

Tendo entendido como começar com o PaliGemma 2, vamos dar uma olhada mais de perto em seus principais pontos fortes e fracos para ter em mente ao usar esses modelos.

Veja o que faz o PaliGemma 2 se destacar como um modelo de visão-linguagem:

Ganhos de eficiência: Aproveitando a arquitetura otimizada do Gemma 2, o PaliGemma 2 oferece alto desempenho, minimizando os custos de implantação.
‍
Recursos de segurança aprimorados: PaliGemma 2 inclui melhorias significativas de segurança em seu processo de treinamento, como filtragem robusta de dados de pré-treinamento para reduzir vieses e avaliação rigorosa em relação aos benchmarks de segurança.
‍
Baixa latência para configurações menores: O modelo 3B oferece tempos de inferência mais rápidos, tornando-o adequado para casos de uso onde a velocidade é crítica, como recomendações de produtos de e-commerce ou sistemas de suporte ao vivo.

Enquanto isso, aqui estão algumas áreas onde o PaliGemma 2 pode enfrentar limitações:

Latência: Embora poderosos, os modelos maiores podem enfrentar problemas de latência, especialmente quando implantados para tarefas que exigem respostas imediatas, como sistemas de IA interativos em tempo real.
‍
Dependência de grandes conjuntos de dados: O desempenho do PaliGemma 2 está intimamente ligado à qualidade e diversidade de seus conjuntos de dados de treinamento, o que pode limitar sua eficácia em domínios sub-representados ou idiomas não incluídos nos dados de treinamento.
‍
Altos requisitos de recursos: Apesar das otimizações, as versões de 10B e 28B parâmetros exigem potência computacional significativa, tornando-as menos acessíveis a organizações menores com recursos limitados.

Principais conclusões

O PaliGemma 2 é um avanço fascinante na modelagem de visão-linguagem, oferecendo escalabilidade aprimorada, flexibilidade de ajuste fino e precisão. Pode servir como uma ferramenta valiosa para aplicações que vão desde soluções de acessibilidade e comércio eletrónico até diagnósticos de saúde e educação.

Embora tenha limitações, como requisitos computacionais e dependência de dados de alta qualidade, seus pontos fortes o tornam uma escolha prática para lidar com tarefas complexas que integram dados visuais e textuais. O PaliGemma 2 pode fornecer uma base robusta para pesquisadores e desenvolvedores explorarem e expandirem o potencial da IA em aplicações multimodais.

Participe da conversa sobre IA conferindo nosso repositório GitHub e comunidade. Leia sobre como a IA está avançando na agricultura e na área da saúde! 🚀

PaliGemma 2 da Google: informações sobre modelos VLM avançados

De Gemma 2 para PaliGemma 2

Como funcionam os modelos PaliGemma 2 VLM da Google

Principais capacidades do PaliGemma 2

Comparando PaliGemma 2 e PaliGemma: O que foi aprimorado?

Aplicações do PaliGemma 2: Usos reais para modelos VLM

Experimente você mesmo: PaliGemma 2

Prós e contras do PaliGemma 2 da Google

Principais conclusões

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro
da IA juntos!

PaliGemma 2 da Google: informações sobre modelos VLM avançados

De Gemma 2 para PaliGemma 2

Como funcionam os modelos PaliGemma 2 VLM da Google

Principais capacidades do PaliGemma 2

Comparando PaliGemma 2 e PaliGemma: O que foi aprimorado?

Aplicações do PaliGemma 2: Usos reais para modelos VLM

Experimente você mesmo: PaliGemma 2

Prós e contras do PaliGemma 2 da Google

Principais conclusões

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!