Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

CLIP (Contrastive Language-Image Pre-training)

Scopri come CLIP di OpenAI rivoluziona l'IA con l'apprendimento zero-shot, l'allineamento immagine-testo e le applicazioni nel mondo reale nella computer vision.

CLIP (Contrastive Language-Image Pre-training) è un'innovativa architettura di modello architettura di modelli multimodali introdotta da OpenAI che colma il divario tra la computer vision e l'elaborazione del linguaggio naturale. e l'elaborazione del linguaggio naturale. A differenza dei tradizionali sistemi di computer vision addestrati su serie fisse di categorie pre-etichettate, CLIP impara ad associare immagini con descrizioni testuali grazie all'addestramento su centinaia di milioni di coppie immagine-testo raccolte da Internet. Internet. Questo approccio permette al modello di comprendere i concetti visivi attraverso la lente del linguaggio naturale, consentendo una capacità nota come "zero-shot". una capacità nota come apprendimento a zero scatti, in cui il modello può classify correttamente le immagini in categorie che non ha mai visto esplicitamente durante l'addestramento. Allineando le informazioni informazioni visive e testuali in uno spazio di caratteristiche condiviso, CLIP funge da modello di base versatile per un'ampia gamma di versatile modello di base per un'ampia gamma di compiti di AI a valle.

Come funziona CLIP

Il meccanismo alla base di CLIP si basa su due codificatori separati: un Trasformatore di visione (ViT) o una ResNet per immagini e un Trasformatore di testo per elaborare il linguaggio. Il modello impiega apprendimento contrastivo per sincronizzare queste due modalità. modalità. Durante l'addestramento, CLIP riceve un gruppo di coppie (immagine, testo) e impara a prevedere quale descrizione testuale corrisponde a quale immagine. corrisponde a quale immagine. Ottimizza i suoi parametri per massimizzare la somiglianza del coseno tra gli delle coppie corrette, riducendo al minimo la somiglianza somiglianza per gli abbinamenti errati.

Questo processo di addestramento porta a uno spazio latente condiviso in cui le immagini e i testi semanticamente simili si trovano vicini l'uno all'altro. l'uno all'altro. Ad esempio, la rappresentazione vettoriale di un'immagine di un "golden retriever" sarà molto vicina alla rappresentazione vettoriale della stringa di testo "una foto di un golden retriever". alla rappresentazione vettoriale della stringa di testo "una foto di un golden retriever". Questo allineamento consente agli di classificazione delle immagini semplicemente fornendo un un elenco di potenziali etichette di testo, che il modello confronta con l'immagine in ingresso per trovare la migliore corrispondenza. corrispondenza.

Applicazioni nel mondo reale

La flessibilità del CLIP ha portato alla sua adozione in numerosi settori e applicazioni:

  • Ricerca semantica delle immagini: La ricerca tradizionale si basa sui metadati o sui tag, ma CLIP permette la ricerca semantica in cui gli utenti possono interrogare i database di immagini database di immagini utilizzando descrizioni in linguaggio naturale. Per esempio, la ricerca di "una spiaggia affollata al tramonto" recupera le immagini pertinenti in base al contenuto visivo piuttosto che alle parole chiave, una tecnica preziosa per l'IA nella vendita al dettaglio e nella gestione delle risorse digitali. AI nella vendita al dettaglio e nella gestione delle risorse digitali.
  • Guida dei modelli generativi: CLIP svolge un ruolo cruciale nella valutazione e nella guida dei generatori di generatori di testo-immagine. Valutando la corrispondenza tra l'immagine generata e la richiesta dell'utente immagine generata corrisponde alla richiesta dell'utente, agisce come una metrica orientabile per modelli quali Stable Diffusion e VQGAN, assicurando che l'output visivo sia in linea con l'intento testuale. intento.
  • Moderazione dei contenuti: Le piattaforme utilizzano CLIP per filtrare i contenuti inappropriati confrontando le immagini con le descrizioni testuali delle categorie vietate. descrizioni testuali delle categorie vietate. Questa misura di sicurezza sicurezza dei dati è più efficace della revisione manuale.

CLIP nel rilevamento di oggetti

Sebbene CLIP sia stato originariamente concepito per la classificazione, le sue capacità di codifica del testo sono state integrate nelle moderne architetture di architetture di rilevamento degli oggetti per consentire di rilevamento del vocabolario aperto. Il modello YOLO consente agli di definire classi personalizzate in fase di esecuzione, utilizzando messaggi in linguaggio naturale, sfruttando la comprensione linguistica di CLIP per identificare gli oggetti senza CLIP per identificare gli oggetti senza riqualificarsi.

L'esempio seguente mostra come utilizzare un modello YOLO con l'opzione ultralytics per detect oggetti personalizzati definiti dal testo:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP contro i modelli di visione tradizionali

È importante distinguere CLIP dai modelli supervisionati standard come ResNet o le versioni precedenti di YOLO. ResNet o le versioni precedenti di YOLO.

  • I modelli tradizionali sono tipicamente addestrati su set di dati chiusi come ImageNet con un numero fisso di classi (ad esempio, 1.000 categorie). categorie). Se è necessaria una nuova categoria, il modello richiede una di una nuova categoria, il modello richiede una messa a punto con nuovi dati etichettati.
  • CLIP è un apprendente a vocabolario aperto. Può generalizzarsi a qualsiasi concetto che possa essere descritto in un testo. Mentre modelli specializzati come YOLO11 offrono velocità e precisione di localizzazione superiori e precisione di localizzazione per compiti specifici, CLIP offre una versatilità senza pari per la comprensione generalizzata.

La ricerca recente spesso combina questi approcci. Ad esempio, i modelli linguistici di visione (VLM) spesso utilizzano CLIP come struttura portante per fornire ricchezza semantica, mentre i miglioramenti architettonici di modelli come YOLO26 mirano a migliorare la velocità e la precisione di questi sistemi multimodali.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora