Scopri come CLIP di OpenAI rivoluziona l'IA con l'apprendimento zero-shot, l'allineamento immagine-testo e le applicazioni nel mondo reale nella computer vision.
CLIP (Contrastive Language-Image Pre-training) è un'innovativa architettura di modello architettura di modelli multimodali introdotta da OpenAI che colma il divario tra la computer vision e l'elaborazione del linguaggio naturale. e l'elaborazione del linguaggio naturale. A differenza dei tradizionali sistemi di computer vision addestrati su serie fisse di categorie pre-etichettate, CLIP impara ad associare immagini con descrizioni testuali grazie all'addestramento su centinaia di milioni di coppie immagine-testo raccolte da Internet. Internet. Questo approccio permette al modello di comprendere i concetti visivi attraverso la lente del linguaggio naturale, consentendo una capacità nota come "zero-shot". una capacità nota come apprendimento a zero scatti, in cui il modello può classify correttamente le immagini in categorie che non ha mai visto esplicitamente durante l'addestramento. Allineando le informazioni informazioni visive e testuali in uno spazio di caratteristiche condiviso, CLIP funge da modello di base versatile per un'ampia gamma di versatile modello di base per un'ampia gamma di compiti di AI a valle.
Il meccanismo alla base di CLIP si basa su due codificatori separati: un Trasformatore di visione (ViT) o una ResNet per immagini e un Trasformatore di testo per elaborare il linguaggio. Il modello impiega apprendimento contrastivo per sincronizzare queste due modalità. modalità. Durante l'addestramento, CLIP riceve un gruppo di coppie (immagine, testo) e impara a prevedere quale descrizione testuale corrisponde a quale immagine. corrisponde a quale immagine. Ottimizza i suoi parametri per massimizzare la somiglianza del coseno tra gli delle coppie corrette, riducendo al minimo la somiglianza somiglianza per gli abbinamenti errati.
Questo processo di addestramento porta a uno spazio latente condiviso in cui le immagini e i testi semanticamente simili si trovano vicini l'uno all'altro. l'uno all'altro. Ad esempio, la rappresentazione vettoriale di un'immagine di un "golden retriever" sarà molto vicina alla rappresentazione vettoriale della stringa di testo "una foto di un golden retriever". alla rappresentazione vettoriale della stringa di testo "una foto di un golden retriever". Questo allineamento consente agli di classificazione delle immagini semplicemente fornendo un un elenco di potenziali etichette di testo, che il modello confronta con l'immagine in ingresso per trovare la migliore corrispondenza. corrispondenza.
La flessibilità del CLIP ha portato alla sua adozione in numerosi settori e applicazioni:
Sebbene CLIP sia stato originariamente concepito per la classificazione, le sue capacità di codifica del testo sono state integrate nelle moderne architetture di architetture di rilevamento degli oggetti per consentire di rilevamento del vocabolario aperto. Il modello YOLO consente agli di definire classi personalizzate in fase di esecuzione, utilizzando messaggi in linguaggio naturale, sfruttando la comprensione linguistica di CLIP per identificare gli oggetti senza CLIP per identificare gli oggetti senza riqualificarsi.
L'esempio seguente mostra come utilizzare un modello YOLO con l'opzione ultralytics per detect
oggetti personalizzati definiti dal testo:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
È importante distinguere CLIP dai modelli supervisionati standard come ResNet o le versioni precedenti di YOLO. ResNet o le versioni precedenti di YOLO.
La ricerca recente spesso combina questi approcci. Ad esempio, i modelli linguistici di visione (VLM) spesso utilizzano CLIP come struttura portante per fornire ricchezza semantica, mentre i miglioramenti architettonici di modelli come YOLO26 mirano a migliorare la velocità e la precisione di questi sistemi multimodali.