Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Embeddings

Scopri cosa sono gli embedding e come potenziano l'IA catturando le relazioni semantiche nei dati per NLP, raccomandazioni e computer vision.

Gli embedding sono rappresentazioni vettoriali dense, a bassa dimensionalità e continue di variabili discrete, che fungono da traduttore fondamentale tra i dati umani e la logica delle macchine. Nel campo dell' intelligenza artificiale (AI), i computer non sono in grado di comprendere intuitivamente dati disordinati e non strutturati come testi, immagini o audio. Gli embedding risolvono questo problema convertendo questi input in elenchi di numeri reali, noti come vettori, che esistono in uno spazio matematico ad alta dimensione. A differenza delle codifiche tradizionali che potrebbero semplicemente assegnare un ID casuale a un oggetto, gli embedding vengono appresi attraverso l'addestramento, garantendo che elementi semanticamente simili, come le parole "re" e "regina" o le immagini di due gatti diversi, siano posizionati vicini tra loro nello spazio vettoriale.

Come funzionano le incorporazioni

La creazione di un embedding comporta l'inserimento di dati grezzi in una rete neurale progettata per l' estrazione di caratteristiche. Durante l'addestramento, il modello impara a comprimere le caratteristiche essenziali dell'input in una forma numerica compatta. Ad esempio, un modello di visione artificiale (CV) che analizza una fotografia non vede solo i pixel, ma mappa forme, texture e colori in una coordinata specifica in un grafico multidimensionale. Quando misurano la somiglianza, i sistemi calcolano la distanza tra queste coordinate utilizzando metriche come la somiglianza coseno o la distanza euclidea. Questa vicinanza matematica consente agli algoritmi di eseguire compiti complessi come la classificazione e il clustering con elevata efficienza.

Applicazioni nel mondo reale

Gli embedding fungono da motore per molte funzionalità intelligenti utilizzate nei moderni prodotti software.

  • Ricerca semantica: i motori di ricerca tradizionali spesso si basano sulla corrispondenza esatta delle parole chiave, che fallisce se un utente cerca "auto" ma il documento contiene "car". Gli embedding catturano il significato dietro le parole. Rappresentando la query di ricerca e i documenti del database come vettori, il sistema può recuperare risultati che corrispondono all'intento dell'utente, anche se le parole specifiche differiscono.
  • Sistemi di raccomandazione: i servizi di streaming e i siti di e-commerce utilizzano gli embedding per personalizzare l'esperienza degli utenti. Se un utente guarda un film di fantascienza, il sistema identifica il vettore di embedding di quel film e cerca altri film con vettori simili nel database. Ciò consente di fornire suggerimenti accurati basati sulla somiglianza dei contenuti piuttosto che solo su tag o categorie manuali .
  • Apprendimento zero-shot: i modelli avanzati utilizzano incorporamenti congiunti per collegare diverse modalità, come testo e immagini. Ciò consente a un sistema di riconoscere oggetti che non ha mai visto esplicitamente durante l'addestramento, associando l'incorporamento dell'immagine con l'incorporamento del testo del nome dell'oggetto.

Generazione di embedding con Python

Modelli all'avanguardia come YOLO26 può essere utilizzato per generare incorporamenti di immagini robusti in modo efficiente. L'esempio seguente mostra come estrarre un vettore di caratteristiche da un'immagine utilizzando il ultralytics Pacchetto Python .

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate embeddings for an image
# The embed() method returns the feature vector representing the image content
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Embeddings vs. Concetti correlati

Per implementare efficacemente le soluzioni di IA, è utile distinguere gli embedding dai termini tecnici strettamente correlati.

  • Embedding vs. Ricerca vettoriale: L'embedding è la rappresentazione dei dati stessa (l'elenco di numeri). La ricerca vettoriale è il processo successivo di interrogazione di un database per trovare i vicini più prossimi a quell'embedding. Strumenti specializzati noti come database vettoriali sono spesso utilizzati per memorizzare e ricercare questi embedding su larga scala.
  • Embedding vs. Tokenizzazione: nell' elaborazione del linguaggio naturale (NLP), la tokenizzazione è la fase preliminare di suddivisione del testo in parti più piccole (token). Questi token vengono poi mappati agli embedding. Pertanto, la tokenizzazione prepara i dati, mentre gli embedding rappresentano il significato dei dati.
  • Embedding vs. Deep Learning: il deep learning è il campo più ampio dell'apprendimento automatico basato sulle reti neurali. Gli embedding sono un output o un livello specifico all'interno di un'architettura di deep learning, che spesso funge da ponte tra gli input grezzi e i livelli decisionali del modello.

Gli sviluppatori che desiderano gestire il ciclo di vita dei propri set di dati, comprese le annotazioni e l'addestramento dei modelli per la generazione di incorporamenti personalizzati, possono utilizzare la Ultralytics . Questo strumento completo semplifica il flusso di lavoro dalla gestione dei dati alla distribuzione, garantendo che gli incorporamenti che alimentano le vostre applicazioni derivino da dati di alta qualità e ben curati. Sia che utilizziate framework come PyTorch o TensorFlow, la padronanza degli embedding è un passo fondamentale nella creazione di sofisticati sistemi di riconoscimento dei modelli.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora