Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de Visão

Compreendendo os modelos de visão e linguagem e as suas aplicações

Aprende sobre modelos de visão e linguagem, como funcionam e as suas várias aplicações em IA. Descobre como estes modelos combinam capacidades visuais e de linguagem.

ABAbirami Vina6 min read
Modelos de visão e linguagem combinando a compreensão de imagem e texto

Em um artigo anterior, exploramos como o GPT-4o consegue entender e descrever imagens usando palavras. Também estamos vendo essa capacidade em outros modelos novos, como o Google Gemini e o Claude 3. Hoje, vamos nos aprofundar nesse conceito para explicar como os Vision Language Models funcionam e como eles combinam dados visuais e textuais.

Esses modelos podem ser usados para realizar uma série de tarefas impressionantes, como gerar legendas detalhadas para fotos, responder a perguntas sobre imagens e até criar novos conteúdos visuais com base em descrições textuais. Ao integrar perfeitamente informações visuais e linguísticas, os Vision Language Models estão mudando a forma como interagimos com a tecnologia e entendemos o mundo ao nosso redor.

Link to this sectionComo funcionam os modelos de linguagem visual#

Antes de examinarmos onde os Vision Language Models (VLMs) podem ser usados, vamos entender o que eles são e como funcionam. Os VLMs são modelos de IA avançados que combinam as capacidades dos modelos de visão e de linguagem para lidar tanto com imagens quanto com texto. Esses modelos recebem imagens junto com suas descrições em texto e aprendem a conectar os dois. A parte de visão do modelo captura detalhes das imagens, enquanto a parte de linguagem entende o texto. Esse trabalho em equipe permite que os VLMs entendam e analisem tanto imagens quanto textos.

Aqui estão as principais capacidades dos Vision Language Models:

  • Legendas de Imagens: Geração de texto descritivo baseado no conteúdo das imagens.
  • Visual Question Answering (VQA): Resposta a perguntas relacionadas ao conteúdo de uma imagem.
  • Texto para Geração de Imagens: Criação de imagens com base em descrições textuais.
  • Recuperação de Imagem-Texto: Encontrar imagens relevantes para uma consulta de texto específica e vice-versa.
  • Criação de Conteúdo Multimodal: Combinação de imagens e texto para gerar novos conteúdos.
  • Compreensão de Cenas e Object Detection: Identificação e categorização de objetos e detalhes dentro de uma imagem.

Exemplo das capacidades de um modelo de linguagem visual

Fig 1. Um exemplo das capacidades de um modelo de linguagem visual.

Em seguida, vamos explorar arquiteturas de VLM comuns e técnicas de aprendizado usadas por modelos conhecidos como CLIP, SimVLM e VisualGPT.

Link to this sectionAprendizado contrastivo#

O aprendizado contrastivo é uma técnica que ajuda os modelos a aprender comparando diferenças entre pontos de dados. Ele calcula quão semelhantes ou diferentes são as instâncias e visa minimizar a perda contrastiva, que mede essas diferenças. É especialmente útil no aprendizado sem supervisionamento, onde um pequeno conjunto de exemplos rotulados orienta o modelo a rotular dados novos e não vistos. Por exemplo, para entender como é um gato, o modelo o compara a imagens de gatos semelhantes e de cães. Ao identificar características como estrutura facial, tamanho do corpo e pelos, as técnicas de aprendizado contrastivo podem diferenciar um gato de um cão.

Diagrama de como o aprendizado contrastivo funciona

Fig 2. Como o aprendizado contrastivo funciona.

O CLIP é um Vision Language Model que usa aprendizado contrastivo para combinar descrições de texto com imagens. Ele funciona em três etapas simples. Primeiro, treina as partes do modelo que entendem tanto texto quanto imagens. Segundo, converte as categorias em um conjunto de dados em descrições de texto. Terceiro, identifica a descrição que melhor corresponde a uma determinada imagem. Graças a esse método, o modelo CLIP pode fazer previsões precisas mesmo para tarefas para as quais não foi especificamente treinado.

Link to this sectionPrefixLM#

PrefixLM é uma técnica de Processamento de Linguagem Natural (NLP) usada para treinar modelos. Ela começa com parte de uma frase (um prefixo) e aprende a prever a próxima palavra. Em Vision Language Models, o PrefixLM ajuda o modelo a prever as próximas palavras com base em uma imagem e um determinado texto. Ele usa um Vision Transformer (ViT), que divide uma imagem em pequenos patches, cada um representando uma parte da imagem, e os processa em sequência.

Exemplo de treinamento de um VLM usando a técnica PrefixLM

Fig 3. Um exemplo de treinamento de um VLM que usa a técnica PrefixLM.

O SimVLM é um VLM que usa a técnica de aprendizado PrefixLM. Ele utiliza uma arquitetura Transformer mais simples em comparação com modelos anteriores, mas alcança melhores resultados em vários testes. A arquitetura do seu modelo envolve aprender a associar imagens a prefixos de texto usando um encoder transformer e, em seguida, gerar texto usando um decoder transformer.

Link to this sectionFusão Multimodal com Cross-Attention#

A fusão multimodal com cross-attention é uma técnica que melhora a capacidade de um Vision Language Model pré-treinado de entender e processar dados visuais. Ela funciona adicionando camadas de cross-attention ao modelo, o que permite que ele preste atenção tanto a informações visuais quanto textuais ao mesmo tempo.

Veja como funciona:

  • Objetos-chave em uma imagem são identificados e destacados.
  • Objetos destacados são processados por um encoder visual, traduzindo as informações visuais para um formato que o modelo possa entender.
  • As informações visuais são passadas para um decoder, que interpreta a imagem usando o conhecimento do modelo de linguagem pré-treinado.

O VisualGPT é um bom exemplo de um modelo que usa essa técnica. Ele inclui um recurso especial chamado self-resurrecting activation unit (SRAU), que ajuda o modelo a evitar um problema comum chamado vanishing gradients. O vanishing gradients pode fazer com que os modelos percam informações importantes durante o treinamento, mas a SRAU mantém o desempenho do modelo forte.

Diagrama da arquitetura do modelo VisualGPT

Fig 4. Arquitetura do modelo VisualGPT.

Link to this sectionAplicações dos modelos de linguagem visual#

Os Vision Language Models estão impactando uma variedade de setores. Desde a melhoria de plataformas de e-commerce até a tornar a internet mais acessível, os usos potenciais dos VLMs são empolgantes. Vamos explorar algumas dessas aplicações.

Link to this sectionGerando descrições de produtos#

Ao fazer compras online, você vê descrições detalhadas de cada produto, mas criar essas descrições pode ser demorado. Os VLMs simplificam esse processo automatizando a geração dessas descrições. Varejistas online podem gerar diretamente descrições detalhadas e precisas a partir de imagens de produtos usando Vision Language Models.

Descrições de produtos de alta qualidade ajudam os mecanismos de busca a identificar produtos com base em atributos específicos mencionados na descrição. Por exemplo, uma descrição contendo "manga longa" e "gola de algodão" ajuda os clientes a encontrar uma "camisa de algodão de manga longa" mais facilmente. Isso também ajuda os clientes a encontrar o que desejam rapidamente e, por sua vez, aumenta as vendas e a satisfação do cliente.

Exemplo de uma descrição de produto gerada por IA

Fig 5. Um exemplo de uma descrição de produto gerada por IA.

Modelos de Generative AI, como o BLIP-2, são exemplos de VLMs sofisticados que podem prever atributos de produtos diretamente a partir de imagens. O BLIP-2 usa vários componentes para entender e descrever produtos de e-commerce com precisão. Ele começa processando e entendendo os aspectos visuais do produto com um image encoder. Em seguida, um querying transformer interpreta essas informações visuais no contexto de perguntas ou tarefas específicas. Finalmente, um large language model gera descrições de produtos detalhadas e precisas.

Link to this sectionTornando a internet mais acessível#

Os Vision Language Models podem tornar a internet mais acessível através de legendas de imagens, especialmente para indivíduos com deficiência visual. Tradicionalmente, os usuários precisam inserir descrições de conteúdo visual em sites e redes sociais. Por exemplo, ao postar no Instagram, você pode adicionar texto alternativo para leitores de tela. Os VLMs, no entanto, podem automatizar esse processo.

Quando um VLM vê uma imagem de um gato sentado em um sofá, ele pode gerar a legenda "Um gato sentado em um sofá", tornando a cena clara para usuários com deficiência visual. Os VLMs usam técnicas como few-shot prompting, onde aprendem com alguns exemplos de pares imagem-legenda, e chain-of-thought prompting, que os ajuda a decompor cenas complexas logicamente. Essas técnicas tornam as legendas geradas mais coerentes e detalhadas.

Usando IA para gerar legendas de imagens

Fig 6. Usando IA para gerar legendas de imagens.

Para esse efeito, o recurso "Get Image Descriptions from Google" do Google no Chrome gera automaticamente descrições para imagens sem texto alternativo. Embora essas descrições geradas por IA possam não ser tão detalhadas quanto as escritas por humanos, elas ainda fornecem informações valiosas.

Link to this sectionBenefícios e Limitações dos Vision Language Models#

Os Vision Language Models (VLMs) oferecem muitas vantagens ao combinar dados visuais e textuais. Alguns dos principais benefícios incluem:

  • Melhor Interação Humano-Máquina: Permite que os sistemas entendam e respondam a entradas visuais e textuais, melhorando assistentes virtuais, chatbots e robótica.
  • Diagnóstico e Análise Avançados: Auxilia na área médica analisando imagens e gerando descrições, apoiando profissionais de saúde com segundas opiniões e detecção de anomalias.
  • Contação de Histórias Interativa e Entretenimento: Gera narrativas envolventes combinando entradas visuais e textuais para melhorar as experiências do usuário em jogos e realidade virtual.

Apesar de suas capacidades impressionantes, os Vision Language Models também apresentam certas limitações. Aqui estão algumas coisas a ter em mente quando se trata de VLMs:

  • Altos Requisitos Computacionais: Treinar e implantar VLMs requer recursos computacionais substanciais, tornando-os caros e menos acessíveis.
  • Dependência de Dados e Viés: Os VLMs podem produzir resultados tendenciosos se treinados em conjuntos de dados não diversos ou enviesados, o que pode perpetuar estereótipos e desinformação.
  • Compreensão de Contexto Limitada: Os VLMs podem ter dificuldade em entender o panorama geral ou o contexto e gerar resultados simplificados ou incorretos.

Link to this sectionPrincipais conclusões#

Os Vision Language Models têm um potencial incrível em muitos campos, como e-commerce e healthcare. Ao combinar dados visuais e textuais, eles podem impulsionar a inovação e transformar setores. No entanto, desenvolver essas tecnologias de forma responsável e ética é essencial para garantir que sejam usadas de forma justa. À medida que os VLMs continuam a evoluir, eles melhorarão tarefas como busca baseada em imagem e tecnologias assistivas.

Para continuar aprendendo sobre IA, conecte-se com nossa comunidade! Explore nosso repositório no GitHub para ver como estamos usando IA para criar soluções inovadoras em setores como manufatura e healthcare. 🚀

Explore solutions

Real-time AI tailored to your operation

IA na Agricultura

Leve a visão computacional para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter produtividade maior e mais inteligente.

Saiba mais
Real-time AI that works with your operation

IA no setor automotivo

Aplique a visão computacional no setor automotivo com modelos Ultralytics YOLO. A visão computacional eleva a segurança viária, assistência ao motorista e automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na saúde

Crie soluções de saúde com modelos Ultralytics YOLO. A IA de visão na saúde impulsiona diagnósticos por imagem mais rápidos, diagnósticos mais inteligentes e monitoramento de pacientes.

Saiba mais
Real-time AI that works with your team

IA no Retalho

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de estoque, monitoramento de prateleiras, gerenciamento de filas e insights de clientes mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Robótica

Potencia máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão na robótica impulsiona a navegação autónoma, perceção, seguimento de objetos e controlo em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimiza o fabrico com modelos Ultralytics YOLO. A IA de visão impulsiona o controlo de qualidade, deteção de defeitos, conformidade de EPI e automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos do Ultralytics YOLO. A IA de visão permite inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança do armazém em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a visão computacional para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter produtividade maior e mais inteligente.

Saiba mais
Real-time AI that works with your operation

IA no setor automotivo

Aplique a visão computacional no setor automotivo com modelos Ultralytics YOLO. A visão computacional eleva a segurança viária, assistência ao motorista e automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na saúde

Crie soluções de saúde com modelos Ultralytics YOLO. A IA de visão na saúde impulsiona diagnósticos por imagem mais rápidos, diagnósticos mais inteligentes e monitoramento de pacientes.

Saiba mais
Real-time AI that works with your team

IA no Retalho

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de estoque, monitoramento de prateleiras, gerenciamento de filas e insights de clientes mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Robótica

Potencia máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão na robótica impulsiona a navegação autónoma, perceção, seguimento de objetos e controlo em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimiza o fabrico com modelos Ultralytics YOLO. A IA de visão impulsiona o controlo de qualidade, deteção de defeitos, conformidade de EPI e automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos do Ultralytics YOLO. A IA de visão permite inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança do armazém em tempo real.

Saiba mais
Real-time AI tailored to your operation

IA na Agricultura

Leve a visão computacional para a agricultura inteligente com os modelos Ultralytics YOLO. Potencialize o monitoramento de colheitas, rastreamento de gado e agricultura de precisão para obter produtividade maior e mais inteligente.

Saiba mais
Real-time AI that works with your operation

IA no setor automotivo

Aplique a visão computacional no setor automotivo com modelos Ultralytics YOLO. A visão computacional eleva a segurança viária, assistência ao motorista e automação de veículos para estradas mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na saúde

Crie soluções de saúde com modelos Ultralytics YOLO. A IA de visão na saúde impulsiona diagnósticos por imagem mais rápidos, diagnósticos mais inteligentes e monitoramento de pacientes.

Saiba mais
Real-time AI that works with your team

IA no Retalho

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de estoque, monitoramento de prateleiras, gerenciamento de filas e insights de clientes mais inteligentes.

Saiba mais
Real-time AI that works with your team

IA na Robótica

Potencia máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão na robótica impulsiona a navegação autónoma, perceção, seguimento de objetos e controlo em tempo real.

Saiba mais
Real-time AI that works with your team

IA na Manufatura

Otimiza o fabrico com modelos Ultralytics YOLO. A IA de visão impulsiona o controlo de qualidade, deteção de defeitos, conformidade de EPI e automação de linhas de montagem.

Saiba mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos do Ultralytics YOLO. A IA de visão permite inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança do armazém em tempo real.

Saiba mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática