Glossário

Modelo de linguagem visual (VLM)

Explore os modelos de linguagem visual (VLM) com Ultralytics. Saiba como eles conectam a visão computacional e os LLMs para VQA e detecção de vocabulário aberto usando Ultralytics .

Um Modelo de Linguagem Visual (VLM) é um tipo de inteligência artificial que pode processar e interpretar simultaneamente informações visuais (imagens ou vídeo) e informações textuais. Ao contrário dos modelos tradicionais de visão computacional, que se concentram exclusivamente em dados de pixels, ou dos Modelos de Linguagem de Grande Porte (LLMs), que apenas compreendem texto, os VLMs preenchem a lacuna entre essas duas modalidades. Ao serem treinados em conjuntos de dados massivos contendo pares de imagens e textos, esses modelos aprendem a associar características visuais a conceitos linguísticos, permitindo-lhes descrever imagens, responder a perguntas sobre cenas visuais e até mesmo executar comandos com base no que «vêem».

Como funcionam os modelos de linguagem visual

Na sua essência, os VLMs consistem normalmente em dois componentes principais: um codificador de visão e um codificador de texto. O codificador de visão processa imagens para extrair mapas de características e representações visuais, enquanto o codificador de texto lida com a entrada linguística. Esses fluxos distintos de dados são então fundidos usando mecanismos como a atenção cruzada para alinhar as informações visuais e textuais num espaço de incorporação partilhado.

Os avanços recentes em 2024 e 2025 avançaram em direção a arquiteturas mais unificadas, nas quais uma única estrutura de transformador lida com ambas as modalidades. Por exemplo, modelos como o Google 2 demonstram como a integração eficaz desses fluxos pode melhorar o desempenho em tarefas complexas de raciocínio. Esse alinhamento permite que o modelo compreenda o contexto, como reconhecer que a palavra «maçã» se refere a uma fruta em uma imagem de mercearia, mas a uma empresa de tecnologia em um logotipo.

Aplicações no Mundo Real

A capacidade de compreender o mundo através da visão e da linguagem abre diversas aplicações em várias indústrias:

Resposta a perguntas visuais (VQA): Os VLMs são amplamente utilizados em diagnósticos de saúde para auxiliar radiologistas. Um médico pode perguntar a um sistema: «Há alguma fratura nesta radiografia?» e o modelo analisa a imagem médica para fornecer uma avaliação preliminar, reduzindo erros de diagnóstico.
Pesquisa inteligente em comércio eletrónico: Em ambientes de retalho, os VLMs permitem que os utilizadores pesquisem produtos usando descrições em linguagem natural combinadas com imagens. Um comprador pode carregar uma foto da roupa de uma celebridade e perguntar: «Encontre-me um vestido com este padrão, mas em azul», e o sistema usa a pesquisa semântica para recuperar correspondências precisas.
Legendas automatizadas e acessibilidade: os VLMs geram automaticamente texto alternativo descritivo para imagens na web, tornando o conteúdo digital mais acessível para utilizadores com deficiência visual que dependem de leitores de ecrã.

Diferenciando VLMs de conceitos relacionados

É útil distinguir os VLMs de outras categorias de IA para compreender o seu papel específico:

VLM vs. LLM: Um Modelo de Linguagem Grande (como as versões somente texto do GPT-4 ) processa apenas dados de texto. Embora possa gerar histórias ou códigos criativos, ele não consegue "ver" uma imagem. Um VLM efetivamente dá olhos a um LLM.
VLM vs. Detecção de objetos: Os modelos tradicionais de detecção de objetos, como as primeiras versões YOLO , identificam onde os objetos estão e a que classe pertencem (por exemplo, «Carro: 99%»). Um VLM vai além, compreendendo as relações e os atributos, como «um carro desportivo vermelho estacionado ao lado de uma boca de incêndio».
VLM vs. IA multimodal: A IA multimodal é um termo mais abrangente. Embora todos os VLMs sejam multimodais (combinando visão e linguagem), nem todos os modelos multimodais são VLMs; alguns podem combinar áudio e texto (como conversão de voz em texto) ou vídeo e dados de sensores sem um componente de linguagem.

Detecção de vocabulário aberto com YOLO

Os VLMs modernos permitem a detecção de "vocabulário aberto", onde é possível detect usando prompts de texto de formato livre em vez de classes predefinidas. Esse é um recurso fundamental de modelos como o Ultralytics YOLO, que permite definições de classe dinâmicas sem necessidade de retreinamento.

O exemplo a seguir demonstra como usar o ultralytics pacote para detect descritos por texto:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Desafios e Direções Futuras

Embora poderosos, os modelos de linguagem visual enfrentam desafios significativos. Uma questão importante é a alucinação, em que o modelo descreve com confiança objetos ou texto numa imagem que simplesmente não existem. Os investigadores estão a trabalhar ativamente em técnicas como a aprendizagem por reforço a partir do feedback humano (RLHF) para melhorar a fundamentação e a precisão.

Outro desafio é o custo computacional. Treinar esses modelos massivos requer GPU substanciais GPU . No entanto, o lançamento de arquiteturas eficientes como Ultralytics está a ajudar a trazer recursos avançados de visão para dispositivos de ponta. À medida que avançamos, esperamos ver os VLMs a desempenhar um papel crucial em agentes robóticos, permitindo que os robôs naveguem e manipulem objetos com base em instruções verbais complexas.

Para aqueles interessados nos fundamentos teóricos, o artigo original CLIP da OpenAI fornece uma excelente visão sobre o pré-treinamento contrastivo de linguagem-imagem. Além disso, acompanhar os artigos da conferência CVPR é essencial para acompanhar a rápida evolução dessas arquiteturas. Para experimentar o treinamento dos seus próprios modelos de visão, pode utilizar Ultralytics para gerenciamento simplificado de conjuntos de dados e implantação de modelos .

Modelo de linguagem visual (VLM)

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como funcionam os modelos de linguagem visual

Aplicações no Mundo Real

Diferenciando VLMs de conceitos relacionados

Detecção de vocabulário aberto com YOLO

Desafios e Direções Futuras

Leia mais nesta categoria

Como melhorar mAP do modelo mAP objetos pequenos: um guia rápido

Redefinindo a vigilância da biodiversidade com visão computacional

As 5 principais dicas para implementar o YOLO26 de forma eficiente na periferia e na nuvem

Junte-se à comunidade Ultralytics