Glossário

CLIP (Contrastive Language-Image Pre-training)

Descobre como o CLIP da OpenAI revoluciona a IA com aprendizagem sem disparos, alinhamento imagem-texto e aplicações do mundo real na visão computacional.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O CLIP (Contrastive Language-Image Pre-training) é uma rede neural (NN) versátil desenvolvida pela OpenAI que se destaca na compreensão de conceitos visuais descritos através da linguagem do dia a dia. Ao contrário dos modelos tradicionais de classificação de imagens que requerem conjuntos de dados meticulosamente rotulados, o CLIP aprende analisando centenas de milhões de pares imagem-texto retirados da Internet. Utiliza uma técnica chamada aprendizagem contrastiva para compreender as relações intrincadas entre imagens e as suas descrições textuais correspondentes. Esta abordagem de formação única permite ao CLIP ter um desempenho excecional em várias tarefas sem formação específica para elas, uma capacidade poderosa conhecida como aprendizagem zero-shot.

Como funciona o Clip

A arquitetura do CLIP consiste em duas partes principais: um codificador de imagem e um codificador de texto. O codificador de imagem, que utiliza frequentemente arquitecturas como a Vision Transformer (ViT) ou a ResNet, processa imagens para extrair as principais caraterísticas visuais. Em paralelo, o codificador de texto, normalmente baseado no modelo Transformer prevalecente no Processamento de Linguagem Natural (NLP), analisa as descrições de texto associadas para capturar o seu significado semântico. Durante a fase de treino, o CLIP aprende a projetar as representações(embeddings) das imagens e do texto num espaço multidimensional partilhado. O principal objetivo do processo de aprendizagem contrastiva é maximizar a semelhança (muitas vezes medida pela semelhança de cosseno) entre as incrustações de pares imagem-texto corretos e, simultaneamente, minimizar a semelhança para pares incorrectos dentro de um determinado lote. Este método ensina eficazmente o modelo a associar padrões visuais a palavras e frases relevantes, tal como descrito no documento CLIP original.

Principais caraterísticas e vantagens

A vantagem mais significativa do CLIP é a sua notável capacidade de aprendizagem zero-shot. Uma vez que aprende uma ampla ligação entre os dados visuais e a linguagem, em vez de categorias fixas, pode classificar imagens com base em descrições de texto inteiramente novas que nunca encontrou durante o treino, eliminando a necessidade de afinação específica da tarefa em muitos casos. Por exemplo, o CLIP pode potencialmente identificar uma imagem descrita como "um esboço de um cão azul" mesmo que não tenha sido explicitamente treinado em imagens rotuladas como tal, combinando os seus conceitos aprendidos de "esboço", "azul" e "cão". Esta adaptabilidade torna o CLIP altamente valioso para diversas aplicações de visão computacional (CV). Atinge frequentemente um desempenho competitivo, mesmo quando comparado com modelos treinados sob paradigmas de aprendizagem supervisionada em conjuntos de dados de referência padrão como o ImageNet.

Clip vs. Outros modelos

A abordagem do CLIP difere de outros modelos comuns de Inteligência Artificial (IA):

  • Classificadores de imagens supervisionados: Os classificadores tradicionais aprendem com conjuntos de dados em que cada imagem tem uma etiqueta específica (por exemplo, "gato", "cão"). São excelentes em categorias predefinidas, mas têm dificuldades com conceitos não vistos. O CLIP aprende a partir de pares imagem-texto não estruturados, permitindo uma classificação sem disparos para pedidos de texto arbitrários.
  • Modelos de deteção de objectos: Modelos como Ultralytics YOLO concentram-se na deteção de objectos, identificando a localização dos objectos dentro de uma imagem utilizando caixas delimitadoras e classificando-os. Embora sejam poderosos para tarefas de localização como detetar ou segmentar, não possuem a compreensão intrínseca do CLIP de descrições de linguagem arbitrárias para classificação. Podes ver comparações entre modelos YOLO para desempenho de deteção.
  • Outros modelos de visão-linguagem (VLMs): O CLIP é um tipo de modelo multimodal. Enquanto outros VLMs podem concentrar-se em tarefas como a Resposta a Perguntas Visuais (VQA) ou a legendagem detalhada de imagens, a principal força do CLIP reside na sua robusta classificação de imagens de disparo zero e na correspondência de semelhança imagem-texto. Sabe mais sobre os diferentes tipos de VLMs no blogue Ultralytics .
  • Modelos generativos: Modelos como o Stable Diffusion ou o DALL-E concentram-se na criação de imagens a partir de texto(texto para imagem). Embora o CLIP não gere imagens por si só, o seu codificador de texto é frequentemente utilizado em modelos generativos para garantir que a imagem de saída se alinha bem com o texto de entrada.

Aplicações no mundo real

As capacidades únicas do CLIP prestam-se a várias utilizações práticas:

  • Moderação de conteúdos: Filtra ou assinala automaticamente imagens com base em descrições textuais de conteúdos inadequados ou indesejados, sem necessitar de exemplos pré-rotulados de todas as violações possíveis. A OpenAI utiliza o CLIP como parte das suas ferramentas de moderação de conteúdos.
  • Pesquisa semântica de imagens: Permite que os utilizadores pesquisem vastas bibliotecas de imagens (como sites de stock de fotografias, como o Unsplash, ou colecções de fotografias pessoais) utilizando consultas de linguagem natural em vez de apenas palavras-chave ou etiquetas. Por exemplo, pesquisa por "uma praia serena ao pôr do sol com palmeiras".
  • Melhorar a acessibilidade: Gerar automaticamente descrições de imagens relevantes para utilizadores com deficiências visuais.
  • Orientar a IA generativa: Como mencionado, os codificadores do CLIP ajudam a orientar os modelos de IA generativa para produzir imagens que reflectem com precisão as solicitações de texto complexas.

Limitações e direcções futuras

Apesar das suas capacidades inovadoras, o CLIP não está isento de limitações. O facto de se basear em dados vastos e sem curadoria da Internet significa que pode herdar preconceitos sociais presentes no texto e nas imagens, o que suscita preocupações sobre a equidade na IA e potenciais preconceitos algorítmicos. Além disso, o CLIP pode ter dificuldades em tarefas que exijam um raciocínio espacial preciso (por exemplo, contar objectos com exatidão) ou reconhecer detalhes visuais extremamente finos. A investigação está a explorar ativamente métodos para mitigar estes preconceitos, melhorar a compreensão de pormenores e integrar o conhecimento semântico do CLIP com os pontos fortes de localização de modelos como o YOLOv11. A combinação de diferentes tipos de modelos e a gestão de experiências podem ser simplificadas utilizando plataformas como o Ultralytics HUB. Mantém-te atualizado sobre os mais recentes desenvolvimentos de IA através de recursos como o blogueUltralytics .

Lê tudo