Descubra como o CLIP da OpenAI revoluciona a IA com aprendizado zero-shot, alinhamento imagem-texto e aplicações no mundo real em visão computacional.
O CLIP (Contrastive Language-Image Pre-training) é uma arquitetura inovadora de modelos arquitetura de modelo multimodal introduzida pela OpenAI que faz a ponte entre a visão computacional e o processamento de linguagem natural natural. Ao contrário dos sistemas tradicionais de visão por computador treinados em conjuntos fixos de categorias pré-rotuladas, o CLIP aprende a imagens com descrições de texto, treinando em centenas de milhões de pares imagem-texto recolhidos na Internet. Esta abordagem permite que o modelo compreenda conceitos visuais através da lente da linguagem natural, possibilitando uma capacidade conhecida como aprendizagem zero-shot, em que o modelo pode classify corretamente as imagens em categorias que nunca viu explicitamente durante o treino. Ao alinhar informação visual e textual num espaço de caraterísticas partilhado, o CLIP serve como um versátil para uma vasta gama de tarefas de IA a jusante. a jusante.
O mecanismo central do CLIP assenta em dois codificadores separados: um Transformador de Visão (ViT) ou uma ResNet para processar imagens, e um Transformador de texto para processar linguagem. O modelo emprega aprendizagem contrastiva para sincronizar estas duas modalidades. Durante o treino, o CLIP recebe um lote de pares (imagem, texto) e aprende a prever que descrição de texto corresponde a que imagem. Optimiza os seus parâmetros para maximizar a semelhança de cosseno entre as entre as incorporações de pares corretos, enquanto minimiza a semelhança para pares incorrectos.
Este processo de formação resulta num espaço latente partilhado onde imagens e textos semanticamente semelhantes estão localizados próximos uns dos outros. entre si. Por exemplo, a representação vetorial de uma imagem de um "golden retriever" estará muito próxima da representação vetorial da cadeia de texto "uma fotografia de um golden retriever". Este alinhamento permite aos que os programadores efectuem a classificação de imagens simplesmente fornecendo uma lista de potenciais rótulos de texto, que o modelo compara com a imagem de entrada para encontrar a melhor correspondência.
A flexibilidade do CLIP levou à sua adoção em numerosas indústrias e aplicações:
Embora o CLIP tenha sido originalmente concebido para classificação, as suas capacidades de codificação de texto foram integradas em arquitecturas modernas de arquitecturas modernas de deteção de objectos para permitir deteção de vocabulário aberto. O modelo YOLO permite aos utilizadores que os utilizadores definam classes personalizadas em tempo de execução utilizando avisos em linguagem natural, tirando partido da compreensão linguística do CLIP do CLIP para identificar objectos sem necessidade de reciclagem.
O exemplo a seguir demonstra como usar um modelo YOLO com o ultralytics para detect
objectos personalizados definidos por texto:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
É importante distinguir o CLIP dos modelos supervisionados padrão como o ResNet ou versões anteriores do YOLO.
A investigação recente combina frequentemente estas abordagens. Por exemplo, Modelos de Linguagem Visual (VLMs) utilizam frequentemente o CLIP como espinha dorsal para proporcionar riqueza semântica, enquanto as melhorias arquitectónicas de modelos como o YOLO26 têm por objetivo aumentar a velocidade e a precisão destes sistemas multimodais.