Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Entendendo modelos de linguagem visual e suas aplicações

Abirami Vina

Leitura de 6 min

5 de julho de 2024

Aprenda sobre modelos de linguagem visual, como eles funcionam e suas várias aplicações em IA. Descubra como esses modelos combinam capacidades visuais e de linguagem.

Em um artigo anterior, exploramos como o GPT-4o pode entender e descrever imagens usando palavras. Também estamos vendo essa capacidade em outros novos modelos como o Google Gemini e o Claude 3. Hoje, estamos mergulhando mais fundo neste conceito para explicar como os Modelos de Linguagem Visual funcionam e como eles combinam dados visuais e textuais. 

Esses modelos podem ser usados para executar uma variedade de tarefas impressionantes, como gerar legendas detalhadas para fotos, responder a perguntas sobre imagens e até mesmo criar novo conteúdo visual com base em descrições textuais. Ao integrar perfeitamente informações visuais e linguísticas, os Modelos de Linguagem Visual estão mudando a forma como interagimos com a tecnologia e entendemos o mundo ao nosso redor.

Como funcionam os modelos de linguagem visual

Antes de analisarmos onde os Modelos de Linguagem Visual (VLMs) podem ser usados, vamos entender o que são e como funcionam. Os VLMs são modelos de IA avançados que combinam as capacidades de modelos de visão e linguagem para lidar com imagens e texto. Esses modelos recebem imagens junto com suas descrições textuais e aprendem a conectar os dois. A parte de visão do modelo captura detalhes das imagens, enquanto a parte de linguagem entende o texto. Esse trabalho em equipe permite que os VLMs entendam e analisem imagens e texto.

Aqui estão os principais recursos dos Modelos de Linguagem Visual:

  • Legenda de Imagem: Geração de texto descritivo com base no conteúdo das imagens.
  • Resposta Visual a Perguntas (VQA): Responder a perguntas relacionadas ao conteúdo de uma imagem.
  • Texto para Geração de Imagem: Criação de imagens com base em descrições textuais.
  • Recuperação de Imagem-Texto: Encontrar imagens relevantes para uma determinada consulta de texto e vice-versa.
  • Criação de Conteúdo Multimodal: Combinar imagens e texto para gerar novo conteúdo.
  • Compreensão de Cena e Detecção de Objetos: Identificar e categorizar objetos e detalhes dentro de uma imagem.
__wf_reserved_inherit
Fig 1. Um exemplo das capacidades de um modelo de linguagem visual.

Em seguida, vamos explorar as arquiteturas VLM comuns e as técnicas de aprendizado usadas por modelos conhecidos como CLIP, SimVLM e VisualGPT.

Aprendizado contrastivo

O aprendizado contrastivo é uma técnica que ajuda os modelos a aprender comparando as diferenças entre os pontos de dados. Ele calcula o quão semelhantes ou diferentes as instâncias são e visa minimizar a perda contrastiva, que mede essas diferenças. É especialmente útil no aprendizado semissupervisionado, onde um pequeno conjunto de exemplos rotulados orienta o modelo a rotular dados novos e não vistos. Por exemplo, para entender como é um gato, o modelo o compara com imagens semelhantes de gatos e imagens de cães. Ao identificar características como estrutura facial, tamanho do corpo e pelo, as técnicas de aprendizado contrastivo podem diferenciar um gato de um cão.

__wf_reserved_inherit
Fig 2. Como funciona o aprendizado contrastivo.

CLIP é um Modelo de Linguagem Visual que usa aprendizado contrastivo para corresponder descrições de texto com imagens. Ele funciona em três etapas simples. Primeiro, ele treina as partes do modelo que entendem tanto texto quanto imagens. Segundo, ele converte as categorias em um conjunto de dados em descrições de texto. Terceiro, ele identifica a descrição de melhor correspondência para uma determinada imagem. Graças a este método, o modelo CLIP pode fazer previsões precisas mesmo para tarefas para as quais não foi especificamente treinado.

PrefixLM

PrefixLM é uma técnica de Processamento de Linguagem Natural (NLP) usada para treinar modelos. Ele começa com parte de uma frase (um prefixo) e aprende a prever a próxima palavra. Em Modelos de Linguagem Visual, o PrefixLM ajuda o modelo a prever as próximas palavras com base em uma imagem e um trecho de texto fornecido. Ele usa um Vision Transformer (ViT), que divide uma imagem em pequenos patches, cada um representando uma parte da imagem, e os processa em sequência. 

__wf_reserved_inherit
Fig 3. Um exemplo de treinamento de um VLM que usa a técnica PrefixLM.

SimVLM é um VLM que usa a técnica de aprendizado PrefixLM. Ele usa uma arquitetura Transformer mais simples em comparação com os modelos anteriores, mas obtém melhores resultados em vários testes. Sua arquitetura de modelo envolve aprender a associar imagens com prefixos de texto usando um codificador transformer e, em seguida, gerar texto usando um decodificador transformer. 

Fusão Multimodal com Atenção Cruzada

A fusão multimodal com atenção cruzada é uma técnica que melhora a capacidade de um Modelo de Linguagem Visual pré-treinado de entender e processar dados visuais. Ele funciona adicionando camadas de atenção cruzada ao modelo, o que permite que ele preste atenção às informações visuais e textuais ao mesmo tempo. 

Veja como funciona: 

  • Os principais objetos em uma imagem são identificados e destacados.
  • Os objetos destacados são processados por um codificador visual, traduzindo as informações visuais em um formato que o modelo possa entender.
  • As informações visuais são passadas para um decodificador, que interpreta a imagem usando o conhecimento do modelo de linguagem pré-treinado.

VisualGPT é um bom exemplo de um modelo que usa essa técnica. Ele inclui um recurso especial chamado unidade de ativação autorressuscitável (SRAU), que ajuda o modelo a evitar um problema comum chamado desaparecimento de gradientes. O desaparecimento de gradientes pode fazer com que os modelos percam informações importantes durante o treinamento, mas o SRAU mantém o forte desempenho do modelo. 

__wf_reserved_inherit
Fig. 4. Arquitetura do modelo VisualGPT.

Aplicações de modelos de linguagem visual

Os modelos de linguagem visual estão causando impacto em diversos setores. Desde o aprimoramento de plataformas de e-commerce até a maior acessibilidade da internet, os usos potenciais dos VLMs são empolgantes. Vamos explorar algumas dessas aplicações.

Geração de descrições de produtos

Ao fazer compras online, você vê descrições detalhadas de cada produto, mas criar essas descrições pode ser demorado. Os VLMs agilizam esse processo automatizando a geração dessas descrições. Os varejistas online podem gerar diretamente descrições detalhadas e precisas a partir de imagens de produtos usando modelos de linguagem visual. 

Descrições de produtos de alta qualidade ajudam os mecanismos de busca a identificar produtos com base em atributos específicos mencionados na descrição. Por exemplo, uma descrição que contenha "manga longa" e "gola de algodão" ajuda os clientes a encontrar uma "camisa de algodão de manga longa" mais facilmente. Também ajuda os clientes a encontrar o que desejam rapidamente e, por sua vez, aumenta as vendas e a satisfação do cliente.

__wf_reserved_inherit
Fig. 5. Um exemplo de descrição de produto gerada por IA. 

Modelos de IA generativa, como o BLIP-2, são exemplos de VLMs sofisticados que podem prever atributos de produtos diretamente de imagens. O BLIP-2 usa vários componentes para entender e descrever produtos de e-commerce com precisão. Ele começa processando e entendendo os aspectos visuais do produto com um codificador de imagem. Em seguida, um transformer de consulta interpreta essas informações visuais no contexto de perguntas ou tarefas específicas. Finalmente, um modelo de linguagem grande gera descrições de produtos detalhadas e precisas.

Tornando a internet mais acessível

Os modelos de linguagem visual podem tornar a internet mais acessível por meio da legenda de imagens, especialmente para pessoas com deficiência visual. Tradicionalmente, os usuários precisam inserir descrições de conteúdo visual em sites e mídias sociais. Por exemplo, ao postar no Instagram, você pode adicionar texto alternativo para leitores de tela. Os VLMs, no entanto, podem automatizar esse processo. 

Quando um VLM vê uma imagem de um gato sentado em um sofá, ele pode gerar a legenda "Um gato sentado em um sofá", tornando a cena clara para usuários com deficiência visual. Os VLMs usam técnicas como o "few-shot prompting", onde aprendem com alguns exemplos de pares imagem-legenda, e o "chain-of-thought prompting", que os ajuda a decompor cenas complexas logicamente. Essas técnicas tornam as legendas geradas mais coerentes e detalhadas.

__wf_reserved_inherit
Fig. 6. Usando IA para gerar legendas de imagens.

Para esse efeito, o recurso "Obter descrições de imagens do Google" do Google no Chrome gera automaticamente descrições para imagens sem texto alternativo. Embora essas descrições geradas por IA possam não ser tão detalhadas quanto as escritas por humanos, elas ainda fornecem informações valiosas.

Benefícios e limitações dos modelos de linguagem visual

Os modelos de linguagem visual (VLMs) oferecem muitas vantagens ao combinar dados visuais e textuais. Alguns dos principais benefícios incluem:

  • Melhor interação homem-máquina: permite que os sistemas entendam e respondam a entradas visuais e textuais, melhorando assistentes virtuais, chatbots e robótica.
  • Diagnóstico e análise avançados: auxilia na área médica analisando imagens e gerando descrições, apoiando profissionais de saúde com segundas opiniões e detecção de anomalias.
  • Narrativa e entretenimento interativos: gera narrativas envolventes combinando entradas visuais e textuais para melhorar as experiências do usuário em jogos e realidade virtual.

Apesar de suas capacidades impressionantes, os modelos de linguagem visual também apresentam certas limitações. Aqui estão algumas coisas para ter em mente quando se trata de VLMs:

  • Altos requisitos computacionais: o treinamento e a implantação de VLMs exigem recursos computacionais substanciais, tornando-os caros e menos acessíveis.
  • Dependência de dados e viés: os VLMs podem produzir resultados tendenciosos se forem treinados em conjuntos de dados não diversos ou tendenciosos, o que pode perpetuar estereótipos e desinformação.
  • Compreensão limitada do contexto: os VLMs podem ter dificuldades para entender o panorama geral ou o contexto e gerar resultados excessivamente simplificados ou incorretos.

Principais conclusões

Os modelos de linguagem visual têm um potencial incrível em muitos campos, como e-commerce e assistência médica. Ao combinar dados visuais e textuais, eles podem impulsionar a inovação e transformar setores. No entanto, desenvolver essas tecnologias de forma responsável e ética é essencial para garantir que sejam usadas de forma justa. À medida que os VLMs continuam a evoluir, eles melhorarão tarefas como pesquisa baseada em imagem e tecnologias assistivas. 

Para continuar aprendendo sobre IA, conecte-se com nossa comunidade! Explore nosso repositório do GitHub para ver como estamos usando a IA para criar soluções inovadoras em setores como manufatura e assistência médica. 🚀

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência