Explore os modelos de linguagem visual (VLM) com Ultralytics. Saiba como eles conectam a visão computacional e os LLMs para VQA e detecção de vocabulário aberto usando Ultralytics .
Um Modelo de Linguagem Visual (VLM) é um tipo de inteligência artificial que pode processar e interpretar simultaneamente informações visuais (imagens ou vídeo) e informações textuais. Ao contrário dos modelos tradicionais de visão computacional, que se concentram exclusivamente em dados de pixels, ou dos Modelos de Linguagem de Grande Porte (LLMs), que apenas compreendem texto, os VLMs preenchem a lacuna entre essas duas modalidades. Ao serem treinados em conjuntos de dados massivos contendo pares de imagens e textos, esses modelos aprendem a associar características visuais a conceitos linguísticos, permitindo-lhes descrever imagens, responder a perguntas sobre cenas visuais e até mesmo executar comandos com base no que «vêem».
Na sua essência, os VLMs consistem normalmente em dois componentes principais: um codificador de visão e um codificador de texto. O codificador de visão processa imagens para extrair mapas de características e representações visuais, enquanto o codificador de texto lida com a entrada linguística. Esses fluxos distintos de dados são então fundidos usando mecanismos como a atenção cruzada para alinhar as informações visuais e textuais num espaço de incorporação partilhado.
Os avanços recentes em 2024 e 2025 avançaram em direção a arquiteturas mais unificadas, nas quais uma única estrutura de transformador lida com ambas as modalidades. Por exemplo, modelos como o Google 2 demonstram como a integração eficaz desses fluxos pode melhorar o desempenho em tarefas complexas de raciocínio. Esse alinhamento permite que o modelo compreenda o contexto, como reconhecer que a palavra «maçã» se refere a uma fruta em uma imagem de mercearia, mas a uma empresa de tecnologia em um logotipo.
A capacidade de compreender o mundo através da visão e da linguagem abre diversas aplicações em várias indústrias:
É útil distinguir os VLMs de outras categorias de IA para compreender o seu papel específico:
Os VLMs modernos permitem a detecção de "vocabulário aberto", onde é possível detect usando prompts de texto de formato livre em vez de classes predefinidas. Esse é um recurso fundamental de modelos como o Ultralytics YOLO, que permite definições de classe dinâmicas sem necessidade de retreinamento.
O exemplo a seguir demonstra como usar o ultralytics pacote para detect
descritos por texto:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Embora poderosos, os modelos de linguagem visual enfrentam desafios significativos. Uma questão importante é a alucinação, em que o modelo descreve com confiança objetos ou texto numa imagem que simplesmente não existem. Os investigadores estão a trabalhar ativamente em técnicas como a aprendizagem por reforço a partir do feedback humano (RLHF) para melhorar a fundamentação e a precisão.
Outro desafio é o custo computacional. Treinar esses modelos massivos requer GPU substanciais GPU . No entanto, o lançamento de arquiteturas eficientes como Ultralytics está a ajudar a trazer recursos avançados de visão para dispositivos de ponta. À medida que avançamos, esperamos ver os VLMs a desempenhar um papel crucial em agentes robóticos, permitindo que os robôs naveguem e manipulem objetos com base em instruções verbais complexas.
Para aqueles interessados nos fundamentos teóricos, o artigo original CLIP da OpenAI fornece uma excelente visão sobre o pré-treinamento contrastivo de linguagem-imagem. Além disso, acompanhar os artigos da conferência CVPR é essencial para acompanhar a rápida evolução dessas arquiteturas. Para experimentar o treinamento dos seus próprios modelos de visão, pode utilizar Ultralytics para gerenciamento simplificado de conjuntos de dados e implantação de modelos .