Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Google PaliGemma 2: Insights sobre modelos VLM avançados

Junta-te a nós enquanto examinamos de perto os novos modelos de linguagem de visão do Google: PaliGemma 2. Esses modelos podem ajudar a compreender e analisar tanto imagens quanto texto.

ABAbirami Vina
4 min read
Modelo de linguagem de visão PaliGemma 2 do Google

No dia 5 de dezembro de 2024, o Google apresentou o PaliGemma 2, a versão mais recente do seu modelo de visão e linguagem (VLM) de ponta. O PaliGemma 2 foi projetado para lidar com tarefas que combinam imagens e texto, como a geração de legendas, respostas a perguntas visuais e a detecção de objetos em elementos visuais.

Com base no PaliGemma original, que já era uma ferramenta poderosa para legendagem multilíngue e reconhecimento de objetos, o PaliGemma 2 traz várias melhorias essenciais. Estas incluem tamanhos de modelo maiores, suporte para imagens de maior resolução e melhor desempenho em tarefas visuais complexas. Essas atualizações tornam-no ainda mais flexível e eficaz para uma ampla gama de usos.

Neste artigo, analisaremos mais de perto o PaliGemma 2, incluindo como funciona, os seus principais recursos e as aplicações onde se destaca. Vamos começar!

Link to this sectionDo Gemma 2 ao PaliGemma 2#

O PaliGemma 2 foi desenvolvido com base em duas tecnologias principais: o codificador de visão SigLIP e o modelo de linguagem Gemma 2. O codificador SigLIP processa dados visuais, como imagens ou vídeos, e fragmenta-os em características que o modelo pode analisar. Entretanto, o Gemma 2 trata o texto, permitindo que o modelo compreenda e gere linguagem multilíngue. Juntos, formam um VLM, projetado para interpretar e conectar informações visuais e textuais de forma integrada.

O que torna o PaliGemma 2 um grande passo em frente é a sua escalabilidade e versatilidade. Ao contrário da versão original, o PaliGemma 2 está disponível em três tamanhos - 3 bilhões (3B), 10 bilhões (10B) e 28 bilhões (28B) de parâmetros. Estes parâmetros funcionam como as definições internas do modelo, ajudando-o a aprender e processar dados eficazmente. Também suporta diferentes resoluções de imagem (por exemplo, 224 x 224 pixels para tarefas rápidas e 896 x 896 para análises detalhadas), tornando-o adaptável a várias aplicações.

Uma visão geral do PaliGemma 2

Fig 1. Uma visão geral do PaliGemma 2.

A integração dos recursos avançados de linguagem do Gemma 2 com o processamento de imagens do SigLIP torna o PaliGemma 2 significativamente mais inteligente. Ele pode lidar com tarefas como:

  • Legendar imagens ou vídeos: O modelo pode gerar descrições textuais detalhadas de elementos visuais, tornando-o útil para criar legendas automaticamente.
  • Respostas a perguntas visuais: O PaliGemma 2 pode responder a perguntas baseadas em imagens, como identificar objetos, pessoas ou ações numa cena.
  • Reconhecimento de objetos: Identifica e etiqueta objetos dentro de uma imagem, como distinguir entre um gato, uma mesa ou um carro numa foto.

O PaliGemma 2 vai além do processamento de imagens e texto em separado - ele combina-os de formas significativas. Por exemplo, consegue compreender relações numa cena, como reconhecer que “O gato está sentado na mesa”, ou identificar objetos enquanto adiciona contexto, como reconhecer um marco famoso.

Link to this sectionComo funcionam os modelos VLM PaliGemma 2 do Google#

A seguir, vamos percorrer um exemplo usando o gráfico mostrado na imagem abaixo para compreender melhor como o PaliGemma 2 processa dados visuais e textuais. Digamos que fazes o upload deste gráfico e perguntas ao modelo: “O que representa este gráfico?”

Um exemplo das capacidades do PaliGemma 2

Fig 2. Um exemplo das capacidades do PaliGemma 2.

O processo começa com o codificador de visão SigLIP do PaliGemma 2 para analisar imagens e extrair recursos-chave. Para um gráfico, isto inclui identificar elementos como eixos, pontos de dados e legendas. O codificador é treinado para capturar padrões amplos e detalhes finos. Também utiliza reconhecimento óptico de caracteres (OCR) para detectar e processar qualquer texto inserido na imagem. Estes recursos visuais são convertidos em tokens, que são representações numéricas que o modelo pode processar. Estes tokens são então ajustados usando uma camada de projeção linear, uma técnica que garante que possam ser combinados perfeitamente com dados textuais.

Ao mesmo tempo, o modelo de linguagem Gemma 2 processa a consulta que acompanha para determinar o seu significado e intenção. O texto da consulta é convertido em tokens, que são combinados com os tokens visuais do SigLIP para criar uma representação multimodal, um formato unificado que liga dados visuais e textuais.

Usando esta representação integrada, o PaliGemma 2 gera uma resposta passo a passo através de decodificação autorregressiva, um método onde o modelo prevê uma parte da resposta de cada vez com base no contexto que já processou.

Link to this sectionPrincipais capacidades do PaliGemma 2#

Agora que compreendemos como funciona, vamos explorar as principais características que fazem do PaliGemma 2 um modelo de visão e linguagem fiável:

  • Flexibilidade de ajuste fino: Adapta-se facilmente a conjuntos de dados e tarefas específicos, apresentando um bom desempenho em aplicações como legendagem de imagens, raciocínio espacial e imagiologia médica.
  • Dados de treino diversificados: Treinado em conjuntos de dados como WebLI e OpenImages, conferindo-lhe fortes capacidades de reconhecimento de objetos e saídas multilíngues.
  • Integração com OCR: Inclui reconhecimento óptico de caracteres para extrair e interpretar texto de imagens, tornando-o ideal para análise de documentos e outras tarefas baseadas em texto.
  • Saídas multilíngues: Gera legendas e respostas em vários idiomas, ideal para aplicações globais.
  • Integração com ferramentas: É compatível com frameworks como Hugging Face Transformers, PyTorch e Keras, permitindo fácil implementação e experimentação.

Link to this sectionComparando o PaliGemma 2 e o PaliGemma: O que foi melhorado?#

Analisar a arquitetura da primeira versão do PaliGemma é uma boa maneira de verificar as melhorias do PaliGemma 2. Uma das alterações mais notáveis é a substituição do modelo de linguagem original Gemma pelo Gemma 2, que traz melhorias substanciais tanto em desempenho como em eficiência.

O Gemma 2, disponível em tamanhos de 9B e 27B parâmetros, foi projetado para oferecer precisão e velocidade líderes na categoria, reduzindo simultaneamente os custos de implementação. Alcança isto através de uma arquitetura redesenhada, otimizada para a eficiência da inferência em várias configurações de hardware, desde GPUs potentes a configurações mais acessíveis.

Revisando a primeira versão do PaliGemma

Fig 3. Olhando para a Primeira Versão do PaliGemma 2.

Como resultado, o PaliGemma 2 é um modelo altamente preciso. A versão 10B do PaliGemma 2 atinge uma pontuação NES (Non-Entailment Sentence) mais baixa de 20,3, em comparação com 34,3 do modelo original, o que significa menos erros factuais nas suas saídas. Estes avanços tornam o PaliGemma 2 mais escalável, preciso e adaptável a uma gama mais ampla de aplicações, desde legendagem detalhada a respostas a perguntas visuais.

Link to this sectionAplicações do PaliGemma 2: Usos no mundo real para modelos VLM#

O PaliGemma 2 tem o potencial de redefinir indústrias ao combinar de forma integrada a compreensão visual e linguística. Por exemplo, no que diz respeito à acessibilidade, ele pode gerar descrições detalhadas de objetos, cenas e relações espaciais, fornecendo assistência crucial a pessoas com deficiência visual. Esta capacidade ajuda os utilizadores a compreender melhor os seus ambientes, oferecendo maior independência nas tarefas quotidianas.

O PaliGemma 2 pode tornar o mundo um lugar mais acessível

Fig 4. O PaliGemma 2 pode tornar o mundo um lugar mais acessível.

Além da acessibilidade, o PaliGemma 2 está a causar impacto em várias indústrias, incluindo:

  • E-commerce: O modelo melhora a categorização de produtos ao analisar e descrever itens em imagens, o que simplifica a gestão de inventário e melhora a experiência de pesquisa para os utilizadores.
  • Saúde: Apoia profissionais de saúde ao interpretar imagiologia médica, como raios-X e ressonâncias magnéticas, juntamente com notas clínicas, para fornecer diagnósticos mais precisos e fundamentados.
  • Educação: O PaliGemma 2 ajuda educadores a criar materiais de aprendizagem descritivos e acessíveis, gerando legendas e fornecendo informações contextuais para imagens.
  • Criação de Conteúdo: O modelo automatiza o processo de geração de legendas e descrições visuais para conteúdo multimédia, poupando tempo aos criadores.

Link to this sectionExperimenta tu mesmo: PaliGemma 2#

Para experimentar o PaliGemma 2, podes começar com a demonstração interativa da Hugging Face. Ela permite que explores as suas capacidades em tarefas como legendagem de imagens e respostas a perguntas visuais. Basta fazeres o upload de uma imagem e fazeres perguntas ao modelo sobre ela ou pedires uma descrição da cena.

Uma demonstração do PaliGemma 2

Fig 5. Uma Demonstração do PaliGemma 2 (Fonte: Hugging Face).

Se quiseres aprofundar, eis como podes colocar a mão na massa:

  • Modelos pré-treinados: Podes aceder a modelos pré-treinados e código de plataformas como Hugging Face e Kaggle. Estes recursos fornecem tudo o que precisas para começares a trabalhar com o modelo.
  • Notebooks: Existe documentação abrangente e exemplos de notebooks para te familiarizares com o PaliGemma 2. Podes começar com exemplos de inferência e experimentar o ajuste fino do modelo no teu próprio conjunto de dados para tarefas específicas.
  • Integrações: O PaliGemma 2 é compatível com frameworks amplamente utilizados como Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp, permitindo-te integrá-lo nos teus fluxos de trabalho existentes sem esforço.

Link to this sectionPrós e contras do PaliGemma 2 do Google#

Depois de compreendido como começar com o PaliGemma 2, vamos analisar mais de perto os seus pontos fortes e fracos para teres em conta ao usar estes modelos.

Eis o que torna o PaliGemma 2 notável como um modelo de visão e linguagem:

  • Ganhos de eficiência: Tirando partido da arquitetura otimizada do Gemma 2, o PaliGemma 2 oferece um alto desempenho enquanto minimiza os custos de implementação.
  • Recursos de segurança aprimorados: O PaliGemma 2 inclui melhorias de segurança significativas no seu processo de treino, como uma filtragem robusta dos dados de pré-treino para reduzir preconceitos e uma avaliação rigorosa contra benchmarks de segurança.
  • Baixa latência para configurações mais pequenas: O modelo 3B oferece tempos de inferência mais rápidos, tornando-o adequado para casos de uso onde a velocidade é crítica, como recomendações de produtos de e-commerce ou sistemas de suporte ao vivo.

Entretanto, aqui estão algumas áreas onde o PaliGemma 2 pode enfrentar limitações:

  • Latência: Embora potentes, os modelos maiores podem enfrentar problemas de latência, especialmente quando implementados para tarefas que exigem respostas imediatas, como sistemas de IA interativos em tempo real.
  • Dependência de grandes conjuntos de dados: O desempenho do PaliGemma 2 está estreitamente ligado à qualidade e diversidade dos seus conjuntos de dados de treino, o que poderia limitar a sua eficácia em domínios sub-representados ou idiomas não incluídos nos dados de treino.
  • Elevados requisitos de recursos: Apesar das otimizações, as versões de 10B e 28B de parâmetros exigem poder computacional significativo, tornando-as menos acessíveis a organizações mais pequenas com recursos limitados.

Link to this sectionPrincipais pontos#

O PaliGemma 2 é um avanço fascinante na modelagem de visão e linguagem, oferecendo escalabilidade melhorada, flexibilidade de ajuste fino e precisão. Pode servir como uma ferramenta valiosa para aplicações que variam desde soluções de acessibilidade e e-commerce a diagnósticos de saúde e educação.

Embora tenha limitações, como requisitos computacionais e uma dependência de dados de alta qualidade, os seus pontos fortes tornam-no uma escolha prática para enfrentar tarefas complexas que integram dados visuais e textuais. O PaliGemma 2 pode fornecer uma base robusta para investigadores e desenvolvedores explorarem e expandirem o potencial da IA em aplicações multimodais.

Faz parte da conversa sobre IA conferindo o nosso repositório GitHub e comunidade. Lê sobre como a IA está a fazer progressos na agricultura e na saúde! 🚀

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática