Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

CLIP (Contrastive Language-Image Pre-training)

Explora o CLIP (Contrastive Language-Image Pre-training) para unir visão e linguagem. Aprende como possibilita o zero-shot learning e impulsiona o Ultralytics YOLO26.

O CLIP (Contrastive Language-Image Pre-training) é uma arquitetura de neural network revolucionária desenvolvida pela OpenAI que preenche a lacuna entre dados visuais e linguagem natural. Ao contrário dos sistemas tradicionais de computer vision (CV) que exigem data labeling intensivo para um conjunto fixo de categorias, o CLIP aprende a entender imagens ao treinar com milhões de pares de imagem-texto coletados da internet. Essa abordagem permite que o modelo execute zero-shot learning, o que significa que ele consegue identificar objetos, conceitos ou estilos que nunca viu explicitamente durante o treinamento, simplesmente lendo uma descrição em texto. Ao mapear informações visuais e linguísticas em um espaço de características compartilhado, o CLIP serve como um poderoso foundation model para uma ampla variedade de tarefas subsequentes, sem a necessidade de um fine-tuning extenso e específico para a tarefa.

Link to this sectionComo a arquitetura funciona#

O mecanismo central do CLIP envolve dois codificadores paralelos: um codificador de imagem, geralmente baseado em um Vision Transformer (ViT) ou em uma ResNet, e um Transformer de texto semelhante aos usados em large language models (LLMs) modernos. Por meio de um processo conhecido como contrastive learning, o sistema é treinado para prever qual trecho de texto corresponde a qual imagem dentro de um lote.

Durante o treinamento, o modelo otimiza seus parâmetros para aproximar os embeddings vetoriais de pares imagem-texto correspondentes, enquanto afasta pares não correspondentes. Isso cria um latent space multimodal onde a representação matemática de uma imagem de um "golden retriever" está localizada espacialmente próxima ao embedding de texto para "uma foto de um cachorro". Ao calcular a cosine similarity entre esses vetores, o modelo pode quantificar o quão bem uma imagem corresponde a um prompt de linguagem natural, permitindo image classification e recuperação flexíveis.

Link to this sectionAplicações no Mundo Real#

A capacidade de conectar visão e linguagem tornou o CLIP uma tecnologia fundamental em aplicações de IA modernas:

  • Semantic Search Inteligente: O CLIP permite que usuários pesquisem grandes bancos de dados de imagens usando consultas complexas de natural language processing (NLP). Por exemplo, em AI in retail, um comprador pode procurar por "vestido floral vintage de verão" e recuperar resultados visualmente precisos sem que as imagens tenham essas tags de metadados específicas. Isso geralmente é potencializado por vector databases de alto desempenho.
  • Controle de IA Generativa: Modelos como o Stable Diffusion dependem do CLIP para interpretar prompts do usuário e guiar o processo de geração. O CLIP atua como um avaliador, medindo o quão bem a saída visual gerada se alinha à descrição de texto, o que é essencial para a síntese de text-to-image de alta qualidade.
  • Object Detection de Vocabulário Aberto: Arquiteturas avançadas como o YOLO-World integram embeddings do CLIP para detectar objetos com base em entradas de texto arbitrárias. Isso permite a detecção dinâmica em campos como AI in healthcare, onde identificar novos equipamentos ou anomalias é necessário sem a necessidade de retreinamento.

Link to this sectionUsando recursos do CLIP com Ultralytics#

Embora detectores de objetos padrão sejam limitados às suas classes de treinamento, usar recursos baseados no CLIP permite a detecção de vocabulário aberto. O código Python a seguir demonstra como usar o pacote ultralytics para detectar objetos usando prompts de texto personalizados:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

Link to this sectionDistinguindo Conceitos Relacionados#

É útil diferenciar o CLIP de outros paradigmas comuns de IA para entender sua utilidade específica:

  • CLIP vs. Supervised Learning: Modelos supervisionados tradicionais exigem definições estritas e exemplos rotulados para cada categoria (por exemplo, "gato", "carro"). O CLIP aprende a partir de pares brutos de texto-imagem encontrados na web, oferecendo maior flexibilidade e eliminando o gargalo da anotação manual, frequentemente gerenciada por ferramentas como a Ultralytics Platform.
  • CLIP vs. YOLO26: Enquanto o CLIP fornece uma compreensão generalizada de conceitos, o YOLO26 é um detector de objetos especializado e em tempo real, otimizado para velocidade e localização precisa. O CLIP é frequentemente usado como extrator de características ou classificador zero-shot, enquanto o YOLO26 é o motor para real-time inference de alta velocidade em ambientes de produção.
  • CLIP vs. Aprendizado Contrastivo Padrão: Métodos como o SimCLR geralmente comparam duas visualizações aumentadas da mesma imagem para aprender características. O CLIP contrasta uma imagem com uma descrição de texto, conectando duas modalidades de dados distintas em vez de apenas uma.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática