Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

CLIP (Contrastive Language-Image Pre-training)

Descubra como o CLIP da OpenAI revoluciona a IA com aprendizado zero-shot, alinhamento imagem-texto e aplicações no mundo real em visão computacional.

O CLIP (Contrastive Language-Image Pre-training) é uma arquitetura inovadora de modelos arquitetura de modelo multimodal introduzida pela OpenAI que faz a ponte entre a visão computacional e o processamento de linguagem natural natural. Ao contrário dos sistemas tradicionais de visão por computador treinados em conjuntos fixos de categorias pré-rotuladas, o CLIP aprende a imagens com descrições de texto, treinando em centenas de milhões de pares imagem-texto recolhidos na Internet. Esta abordagem permite que o modelo compreenda conceitos visuais através da lente da linguagem natural, possibilitando uma capacidade conhecida como aprendizagem zero-shot, em que o modelo pode classify corretamente as imagens em categorias que nunca viu explicitamente durante o treino. Ao alinhar informação visual e textual num espaço de caraterísticas partilhado, o CLIP serve como um versátil para uma vasta gama de tarefas de IA a jusante. a jusante.

Como funciona o CLIP

O mecanismo central do CLIP assenta em dois codificadores separados: um Transformador de Visão (ViT) ou uma ResNet para processar imagens, e um Transformador de texto para processar linguagem. O modelo emprega aprendizagem contrastiva para sincronizar estas duas modalidades. Durante o treino, o CLIP recebe um lote de pares (imagem, texto) e aprende a prever que descrição de texto corresponde a que imagem. Optimiza os seus parâmetros para maximizar a semelhança de cosseno entre as entre as incorporações de pares corretos, enquanto minimiza a semelhança para pares incorrectos.

Este processo de formação resulta num espaço latente partilhado onde imagens e textos semanticamente semelhantes estão localizados próximos uns dos outros. entre si. Por exemplo, a representação vetorial de uma imagem de um "golden retriever" estará muito próxima da representação vetorial da cadeia de texto "uma fotografia de um golden retriever". Este alinhamento permite aos que os programadores efectuem a classificação de imagens simplesmente fornecendo uma lista de potenciais rótulos de texto, que o modelo compara com a imagem de entrada para encontrar a melhor correspondência.

Aplicações no Mundo Real

A flexibilidade do CLIP levou à sua adoção em numerosas indústrias e aplicações:

  • Pesquisa semântica de imagens: A pesquisa tradicional baseia-se em metadados ou etiquetas, mas o CLIP permite pesquisa sem ântica onde os utilizadores podem consultar bases de dados bases de dados de imagens utilizando descrições em linguagem natural. Por exemplo, a pesquisa de "uma praia cheia de gente ao pôr do sol" recupera imagens relevantes com base no conteúdo visual em vez de palavras-chave, uma técnica valiosa para a IA no retalho e na gestão de activos digitais.
  • Orientação de modelos generativos: O CLIP desempenha um papel crucial na avaliação e orientação dos geradores de texto-imagem. Ao avaliar o grau de correspondência entre uma imagem gerada corresponde ao pedido de um utilizador, funciona como uma métrica orientável para modelos como como o Stable Diffusion e o VQGAN, garantindo que o resultado visual se alinha com a intenção textual. intenção textual.
  • Moderação de conteúdos: As plataformas utilizam o CLIP para filtrar conteúdos inadequados, comparando imagens com descrições de texto de categorias proibidas. Esta medida automatizada de automatizada de segurança de dados é mais eficaz do que revisão manual.

CLIP na deteção de objectos

Embora o CLIP tenha sido originalmente concebido para classificação, as suas capacidades de codificação de texto foram integradas em arquitecturas modernas de arquitecturas modernas de deteção de objectos para permitir deteção de vocabulário aberto. O modelo YOLO permite aos utilizadores que os utilizadores definam classes personalizadas em tempo de execução utilizando avisos em linguagem natural, tirando partido da compreensão linguística do CLIP do CLIP para identificar objectos sem necessidade de reciclagem.

O exemplo a seguir demonstra como usar um modelo YOLO com o ultralytics para detect objectos personalizados definidos por texto:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP vs. Modelos de visão tradicionais

É importante distinguir o CLIP dos modelos supervisionados padrão como o ResNet ou versões anteriores do YOLO.

  • Os modelos tradicionais são normalmente treinados em conjuntos de dados fechados como ImageNet com um número fixo de classes (por exemplo, 1.000 categorias). Se for necessária uma nova categoria, o modelo requer o modelo requer um ajuste fino com novos dados rotulados.
  • O CLIP é um aprendiz de vocabulário aberto. Pode generalizar-se a qualquer conceito que possa ser descrito num texto. Enquanto modelos especializados como o YOLO11 oferecem uma velocidade superior e precisão de localização para tarefas específicas, o CLIP oferece uma versatilidade inigualável para uma compreensão generalizada.

A investigação recente combina frequentemente estas abordagens. Por exemplo, Modelos de Linguagem Visual (VLMs) utilizam frequentemente o CLIP como espinha dorsal para proporcionar riqueza semântica, enquanto as melhorias arquitectónicas de modelos como o YOLO26 têm por objetivo aumentar a velocidade e a precisão destes sistemas multimodais.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora