PaliGemma 2 da Google: informações sobre modelos VLM avançados

Abirami Vina

4 min ler

6 de dezembro de 2024

Junte-se a nós para vermos mais de perto os novos modelos de linguagem de visão da Google: PaliGemma 2. Estes modelos podem ajudar a compreender e analisar imagens e texto.

Em 5 de dezembro de 2024, a Google apresentou o PaliGemma 2, a versão mais recente do seu modelo de visão-linguagem (VLM) de ponta. O PaliGemma 2 foi concebido para lidar com tarefas que combinam imagens e texto, como a criação de legendas, a resposta a perguntas visuais e a deteção de objectos em imagens. 

Com base no PaliGemma original, que já era uma ferramenta forte para legendas multilingues e reconhecimento de objectos, o PaliGemma 2 traz várias melhorias importantes. Estas incluem modelos de maiores dimensões, suporte para imagens de maior resolução e melhor desempenho em tarefas visuais complexas. Estas actualizações tornam-no ainda mais flexível e eficaz para uma vasta gama de utilizações.

Neste artigo, vamos analisar mais de perto o PaliGemma 2, incluindo o seu funcionamento, as suas principais caraterísticas e as aplicações em que se destaca. Vamos começar!

De Gemma 2 para PaliGemma 2

O PaliGemma 2 baseia-se em duas tecnologias-chave: o codificador de visão SigLIP e o modelo de linguagem Gemma 2. O codificador SigLIP processa dados visuais, como imagens ou vídeos, e divide-os em caraterísticas que o modelo pode analisar. Entretanto, o Gemma 2 trata o texto, permitindo ao modelo compreender e gerar linguagem multilingue. Juntos, eles formam um VLM, projetado para interpretar e conectar informações visuais e de texto sem problemas.

O que torna o PaliGemma 2 um grande passo em frente é a sua escalabilidade e versatilidade. Ao contrário da versão original, o PaliGemma 2 está disponível em três tamanhos - 3 mil milhões (3B), 10 mil milhões (10B) e 28 mil milhões (28B) de parâmetros. Estes parâmetros são como as definições internas do modelo, ajudando-o a aprender e a processar os dados de forma eficaz. Também suporta diferentes resoluções de imagem (por exemplo, 224 x 224 pixéis para tarefas rápidas e 896 x 896 para análises detalhadas), tornando-o adaptável a várias aplicações.

__wf_reserved_inherit
Figura 1. Uma visão geral do PaliGemma 2.

A integração das capacidades linguísticas avançadas do Gemma 2 com o processamento de imagem do SigLIP torna o PaliGemma 2 significativamente mais inteligente. Ele pode lidar com tarefas como:

  • Legenda de imagens ou vídeos: O modelo pode gerar descrições textuais detalhadas de imagens, o que o torna útil para criar legendas automaticamente.
  • Resposta a perguntas visuais: O PaliGemma 2 pode responder a perguntas baseadas em imagens, tais como identificar objectos, pessoas ou acções numa cena.
  • Reconhecimento de objectos: Identifica e rotula objectos dentro de uma imagem, como distinguir entre um gato, uma mesa ou um carro numa fotografia.

O PaliGemma 2 vai para além do processamento de imagens e texto separadamente - junta-os de forma significativa. Por exemplo, pode compreender as relações numa cena, como reconhecer que "O gato está sentado na mesa", ou identificar objectos enquanto acrescenta contexto, como reconhecer um ponto de referência famoso. 

Como funcionam os modelos PaliGemma 2 VLM da Google

A seguir, vamos analisar um exemplo usando o gráfico mostrado na imagem abaixo para entender melhor como o PaliGemma 2 processa dados visuais e textuais. Digamos que você carregue este gráfico e pergunte ao modelo: "O que este gráfico representa?

__wf_reserved_inherit
Fig. 2. Um exemplo das capacidades do PaliGemma 2.

O processo começa com o codificador de visão SigLIP do PaliGemma 2 para analisar imagens e extrair as principais caraterísticas. No caso de um gráfico, isto inclui a identificação de elementos como eixos, pontos de dados e rótulos. O codificador é treinado para capturar padrões amplos e detalhes finos. Também utiliza o reconhecimento ótico de caracteres (OCR) para detetar e processar qualquer texto incorporado na imagem. Estas caraterísticas visuais são convertidas em tokens, que são representações numéricas que o modelo pode processar. Estes tokens são depois ajustados utilizando uma camada de projeção linear, uma técnica que garante que podem ser combinados sem problemas com dados textuais.

Ao mesmo tempo, o modelo de linguagem Gemma 2 processa a consulta que a acompanha para determinar o seu significado e intenção. O texto da consulta é convertido em tokens e estes são combinados com os tokens visuais do SigLIP para criar uma representação multimodal, um formato unificado que liga dados visuais e textuais. 

Utilizando esta representação integrada, o PaliGemma 2 gera uma resposta passo a passo através da descodificação autoregressiva, um método em que o modelo prevê uma parte da resposta de cada vez com base no contexto que já processou. 

Principais capacidades do PaliGemma 2

Agora que já percebemos como funciona, vamos explorar as principais caraterísticas que fazem do PaliGemma 2 um modelo fiável de visão-linguagem:

  • Flexibilidade de afinação: Adapta-se facilmente a conjuntos de dados e tarefas específicos, apresentando um bom desempenho em aplicações como legendagem de imagens, raciocínio espacial e imagiologia médica.
  • Dados de formação diversificados: Treinado em conjuntos de dados como WebLI e OpenImages, dando-lhe fortes capacidades de reconhecimento de objectos e capacidades de saída multilingue.
  • Integração OCR: Inclui reconhecimento ótico de caracteres para extrair e interpretar texto de imagens, tornando-o ideal para análise de documentos e outras tarefas baseadas em texto.
  • Saídas multilingues: Gera legendas e respostas em vários idiomas, ideal para aplicações globais.
  • Integração com ferramentas: É compatível com estruturas como Hugging Face Transformers, PyTorch e Keras, permitindo uma fácil implementação e experimentação.

Comparação entre o PaliGemma 2 e o PaliGemma: O que é que melhorou?

Observar a arquitetura da primeira versão do PaliGemma é uma boa maneira de ver as melhorias do PaliGemma 2. Uma das mudanças mais notáveis é a substituição do modelo de linguagem Gemma original pelo Gemma 2, que traz melhorias substanciais tanto no desempenho quanto na eficiência. 

O Gemma 2, disponível em tamanhos de parâmetros 9B e 27B, foi projetado para oferecer precisão e velocidade líderes na sua classe, reduzindo os custos de implementação. Isto é conseguido através de uma arquitetura redesenhada e optimizada para eficiência de inferência em várias configurações de hardware, desde GPUs potentes a configurações mais acessíveis.

__wf_reserved_inherit
Figura 3. Olhando para trás, para a primeira versão do PaliGemma 2.

Como resultado, o PaliGemma 2 é um modelo altamente preciso. A versão 10B do PaliGemma 2 alcança uma pontuação mais baixa de 20,3 em relação ao modelo original de 34,3, o que significa menos erros factuais nos seus resultados. Estes avanços tornam o PaliGemma 2 mais escalável, preciso e adaptável a uma gama mais vasta de aplicações, desde a legendagem detalhada à resposta a perguntas visuais.

Aplicações do PaliGemma 2: Utilizações do mundo real para modelos VLM

O PaliGemma 2 tem o potencial de redefinir os sectores, combinando perfeitamente a compreensão visual e linguística. Por exemplo, no que diz respeito à acessibilidade, pode gerar descrições detalhadas de objectos, cenas e relações espaciais, fornecendo assistência crucial a pessoas com deficiências visuais. Esta capacidade ajuda os utilizadores a compreenderem melhor os seus ambientes, oferecendo uma maior independência no que diz respeito às tarefas diárias. 

__wf_reserved_inherit
Figura 4. O PaliGemma 2 pode tornar o mundo um lugar mais acessível.

Para além da acessibilidade, o PaliGemma 2 está a ter um impacto em vários sectores, incluindo:

  • Comércio eletrónico: O modelo melhora a categorização de produtos através da análise e descrição de itens em imagens, o que simplifica a gestão de inventário e melhora a experiência de pesquisa para os utilizadores.
  • Cuidados de saúde: Apoia os profissionais médicos através da interpretação de imagens médicas, como raios X e ressonâncias magnéticas, juntamente com notas clínicas para fornecer diagnósticos mais precisos e informados.
  • Educação: O PaliGemma 2 ajuda os educadores a criar materiais de aprendizagem descritivos e acessíveis, gerando legendas e fornecendo informações contextuais para imagens.
  • Criação de conteúdos: O modelo automatiza o processo de criação de legendas e descrições visuais para conteúdos multimédia, poupando tempo aos criadores.

Experimente você mesmo: PaliGemma 2

Para experimentar o PaliGemma 2, pode começar com a demonstração interactiva do Hugging Face. Esta permite-lhe explorar as suas capacidades em tarefas como a legendagem de imagens e a resposta a perguntas visuais. Basta carregar uma imagem e fazer perguntas ao modelo sobre a mesma ou pedir uma descrição da cena.

__wf_reserved_inherit
Fig. 5. Uma demonstração do PaliGemma 2.

Se pretender aprofundar o assunto, eis como pode começar a trabalhar:

  • Modelos pré-treinados: Pode aceder a modelos e códigos pré-treinados a partir de plataformas como Hugging Face e Kaggle. Estes recursos fornecem tudo o que precisa para começar a trabalhar com o modelo.
  • Cadernos de notas: Existe uma documentação abrangente e notebooks de exemplo para se familiarizar com o PaliGemma 2. Pode começar com exemplos de inferência e experimentar o ajuste fino do modelo no seu próprio conjunto de dados para tarefas específicas.
  • Integrações: O PaliGemma 2 é compatível com frameworks amplamente utilizados, como Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp, permitindo integrá-lo aos seus fluxos de trabalho existentes sem esforço.

Prós e contras do PaliGemma 2 da Google

Depois de saber como começar a utilizar o PaliGemma 2, vamos analisar mais detalhadamente os seus principais pontos fortes e inconvenientes a ter em conta ao utilizar estes modelos. 

Eis o que faz com que o PaliGemma 2 se destaque como um modelo de linguagem de visão:

  • Ganhos de eficiência: Aproveitando a arquitetura optimizada do Gemma 2, o PaliGemma 2 proporciona um elevado desempenho, minimizando os custos de implementação.
  • Caraterísticas de segurança melhoradas: O PaliGemma 2 inclui melhorias significativas de segurança no seu processo de formação, tais como uma filtragem robusta dos dados de pré-treino para reduzir os enviesamentos e uma avaliação rigorosa em relação aos parâmetros de segurança.
  • Baixa latência para configurações mais pequenas: O modelo 3B oferece tempos de inferência mais rápidos, tornando-o adequado para casos de utilização em que a velocidade é crítica, como recomendações de produtos de comércio eletrónico ou sistemas de suporte em tempo real.

Entretanto, eis alguns domínios em que o PaliGemma 2 pode enfrentar limitações:

  • Latência: Embora poderosos, os modelos maiores podem enfrentar problemas de latência, especialmente quando implementados para tarefas que exigem respostas imediatas, como os sistemas de IA interactivos em tempo real.
  • Dependência de grandes conjuntos de dados: O desempenho do PaliGemma 2 está intimamente ligado à qualidade e diversidade dos seus conjuntos de dados de treino, o que pode limitar a sua eficácia em domínios sub-representados ou em línguas não incluídas nos dados de treino.
  • Elevados requisitos de recursos: Apesar das optimizações, as versões com parâmetros 10B e 28B exigem um poder computacional significativo, tornando-as menos acessíveis a organizações mais pequenas com recursos limitados.

Principais conclusões

O PaliGemma 2 é um avanço fascinante na modelação da linguagem da visão, oferecendo maior escalabilidade, flexibilidade de afinação e precisão. Pode servir como uma ferramenta valiosa para aplicações que vão desde soluções de acessibilidade e comércio eletrónico a diagnósticos de saúde e educação. 

Embora tenha limitações, como os requisitos computacionais e a dependência de dados de alta qualidade, os seus pontos fortes tornam-no uma escolha prática para lidar com tarefas complexas que integram dados visuais e textuais. O PaliGemma 2 pode constituir uma base sólida para investigadores e programadores explorarem e expandirem o potencial da IA em aplicações multimodais.

Faça parte da conversa sobre IA consultando o nosso repositório e comunidade GitHub. Leia sobre como a IA está a fazer progressos na agricultura e nos cuidados de saúde! 🚀

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência