Glossário

CLIP (Contrastive Language-Image Pre-training)

Descubra como o CLIP da OpenAI revoluciona a IA com aprendizagem sem disparos, alinhamento imagem-texto e aplicações do mundo real em visão computacional.

O CLIP (Contrastive Language-Image Pre-training) é um modelo multimodal inovador desenvolvido pela OpenAI que liga texto e imagens num espaço de compreensão partilhado. Ao contrário dos modelos tradicionais treinados para uma única tarefa, como a classificação de imagens, o CLIP aprende conceitos visuais diretamente a partir de descrições de linguagem natural. É treinado num enorme conjunto de dados de pares imagem-texto da Internet, o que lhe permite executar uma grande variedade de tarefas sem necessitar de formação específica para cada uma delas - uma capacidade conhecida como aprendizagem zero-shot. Esta abordagem torna-o um poderoso modelo de base para uma nova geração de aplicações de IA.

Como funciona

A ideia central do CLIP é aprender um espaço de incorporação partilhado onde tanto as imagens como o texto podem ser representados como vectores. Utiliza dois codificadores separados: um Vision Transformer (ViT) ou uma arquitetura semelhante para as imagens e um text Transformer para o texto. Durante o treino, o modelo recebe um lote de pares imagem-texto e aprende a prever que legenda de texto corresponde a que imagem. Isto é conseguido através de uma aprendizagem contrastiva, em que o objetivo do modelo é maximizar a semelhança dos embeddings para os pares corretos e minimizá-la para os pares incorrectos. O resultado, detalhado no artigo de investigação original, é uma compreensão robusta dos conceitos que liga os dados visuais ao contexto linguístico. Uma implementação de código aberto, OpenCLIP, treinada em conjuntos de dados como o LAION-5B, tornou esta tecnologia amplamente acessível.

Aplicações no mundo real

As capacidades únicas do CLIP prestam-se a várias utilizações práticas:

  • Pesquisa semântica de imagens: O CLIP permite sistemas de pesquisa avançados em que os utilizadores podem encontrar imagens utilizando consultas em linguagem natural em vez de etiquetas de palavras-chave. Por exemplo, um utilizador pode pesquisar num catálogo de comércio eletrónico por "uma camisa azul às riscas para homem" e obter resultados relevantes, mesmo que os produtos não estejam explicitamente etiquetados com essas palavras exactas. A Ultralytics oferece uma solução de pesquisa semântica de imagens que utiliza CLIP e FAISS (Facebook AI Similarity Search) para uma recuperação rápida e precisa em grandes bibliotecas de imagens.
  • Moderação de conteúdos: As plataformas de redes sociais podem utilizar o CLIP para assinalar automaticamente imagens que representem conteúdos descritos nas suas políticas, como símbolos de ódio ou violência gráfica. Este método é mais flexível do que os métodos tradicionais porque pode identificar violações com base numa descrição de texto, sem necessitar de um conjunto de dados pré-rotulado para todos os tipos possíveis de conteúdos proibidos.
  • Orientar a IA generativa: os codificadores do CLIP são cruciais para orientar modelos de IA generativa como o DALL-E ou o Stable Diffusion. Quando um utilizador fornece uma mensagem de texto, o CLIP avalia a imagem gerada para ver até que ponto corresponde ao significado da mensagem, orientando o modelo para produzir imagens mais precisas e relevantes.
  • Melhoria da acessibilidade: O modelo pode gerar automaticamente legendas ricas e descritivas para imagens, que podem ser utilizadas por leitores de ecrã para descrever conteúdos visuais a utilizadores com deficiências visuais, melhorando significativamente a acessibilidade da Web.

CLIP vs. YOLO

É importante distinguir o CLIP dos modelos especializados de visão por computador (CV), como o Ultralytics YOLO.

  • O CLIP é excelente na compreensão semântica. Sabe o que uma imagem contém num sentido lato e concetual (por exemplo, compreende o conceito de "uma festa de aniversário"). O seu ponto forte é a ligação da linguagem ao visual para tarefas como a classificação e a pesquisa, o que o torna um poderoso Modelo de Linguagem Visual.
  • Os modelos YOLO são excelentes na localização. Foram concebidos para a deteção e segmentação de objectos, identificando a localização precisa e os limites dos objectos numa imagem (por exemplo, localizar todas as pessoas, o bolo e os balões numa festa de aniversário).

Embora distintos, estes modelos são complementares. O futuro da CV pode envolver a combinação do contexto semântico de modelos como o CLIP com a precisão de localização de detectores como o YOLO11 para construir sistemas de IA mais sofisticados.

Limitações e direcções futuras

Apesar do seu poder, o CLIP tem limitações. Uma vez que é treinado com dados vastos e sem curadoria da Internet, pode absorver e replicar preconceitos sociais encontrados nesses dados, levando a preocupações sobre a equidade na IA e potenciais preconceitos algorítmicos. Também tem dificuldades em determinadas tarefas que requerem detalhes minuciosos ou raciocínio espacial, como a contagem exacta de objectos. A investigação em curso, incluindo o trabalho em instituições como o Center for Research on Foundation Models (CRFM) de Stanford, centra-se na atenuação destas tendências e na melhoria das suas capacidades. A integração dos conhecimentos do CLIP em diferentes fluxos de trabalho pode ser gerida com plataformas como o Ultralytics HUB, que simplifica a gestão de modelos e conjuntos de dados.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência