Glossario

Incorporazioni

Scopri cosa sono gli embeddings e come potenziano l'IA catturando le relazioni semantiche nei dati per l'NLP, le raccomandazioni e la computer vision.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Nel regno dell'apprendimento automatico (ML) e dell'intelligenza artificiale (AI), le incorporazioni sono una tecnica fondamentale per rappresentare dati complessi - come parole, frasi, immagini o altri elementi - come vettori numerici densi in uno spazio multidimensionale. Questa trasformazione viene appresa dai dati, consentendo agli algoritmi di catturare il significato semantico, il contesto o le caratteristiche essenziali dell'input. Il vantaggio principale è che gli elementi ritenuti simili in base ai dati di addestramento vengono mappati in punti vicini in questo "spazio di incorporazione", consentendo alle macchine di comprendere relazioni e modelli complessi in modo molto più efficace rispetto alle tradizionali rappresentazioni rade come la codifica a un punto.

Cosa sono le incorporazioni?

Gli embeddings sono rappresentazioni vettoriali apprese e relativamente poco dimensionali di variabili discrete (come le parole) o di oggetti complessi (come le immagini o i profili degli utenti). A differenza di metodi come la codifica one-hot, che creano vettori sparsi ad alta densità in cui ogni dimensione corrisponde a un singolo elemento e manca di informazioni intrinseche sulle relazioni, gli embeddings sono vettori densi (di solito con decine o migliaia di dimensioni) in cui ogni dimensione contribuisce a rappresentare le caratteristiche dell'elemento. In particolare, la posizione di questi vettori nello spazio di embedding cattura le relazioni semantiche. Ad esempio, negli embedding di parole, parole con significati simili o utilizzate in contesti simili, come "re" e "regina" o "camminare" e "correre", avranno vettori matematicamente vicini (ad esempio, utilizzando la somiglianza del coseno). Questa vicinanza riflette la somiglianza semantica appresa dai dati.

Come funzionano le incorporazioni

Le incorporazioni sono tipicamente generate utilizzando modelli di reti neurali (NN) addestrati su grandi insiemi di dati attraverso tecniche come l'apprendimento auto-supervisionato. Ad esempio, una tecnica comune per le incorporazioni di parole, esemplificata da Word2Vec, prevede l'addestramento di un modello per prevedere una parola in base alle parole che la circondano (il suo contesto) all'interno di un corpus di testi di grandi dimensioni. Durante questo processo di addestramento, la rete regola i suoi parametri interni, compresi i vettori di incorporamento per ogni parola, per ridurre al minimo gli errori di previsione attraverso metodi come la retropropagazione. I vettori risultanti codificano implicitamente informazioni sintattiche e semantiche. Il numero di dimensioni dello spazio di incorporazione è un iperparametro critico, che influenza la capacità del modello di catturare i dettagli rispetto al suo costo computazionale e al rischio di overfitting. La visualizzazione di questi spazi di dati altamente dimensionali richiede spesso tecniche di riduzione della dimensionalità come t-SNE o PCA, che possono essere esplorate con strumenti come TensorFlow Projector.

Applicazioni delle incorporazioni

Le incorporazioni sono componenti cruciali in molti moderni sistemi di intelligenza artificiale in vari ambiti:

  • Elaborazione del linguaggio naturale (NLP): Gli embeddings rappresentano parole, frasi o interi documenti. Modelli come le architetture BERT e Transformer si basano molto sugli embeddings per comprendere le sfumature del linguaggio per compiti come la traduzione automatica, l'analisi del sentimento, la risposta alle domande e la ricerca semantica. Esempio: Un chatbot di assistenza clienti utilizza gli embeddings delle frasi per trovare la risposta più pertinente nella sua base di conoscenze, anche se la domanda dell'utente non utilizza le parole chiave esatte.
  • Sistemi di raccomandazione: Gli embeddings possono rappresentare utenti e articoli (come film, prodotti o articoli). Imparando gli embeddings in modo tale che gli utenti e gli articoli di loro gradimento siano vicini nello spazio degli embeddings, i sistemi possono raccomandare nuovi articoli simili a quelli con cui un utente ha interagito in precedenza o che sono piaciuti a utenti simili(filtraggio collaborativo). Aziende come Netflix e Amazon ne fanno largo uso.
  • Visione artificiale (CV): Le immagini o i patch di immagini possono essere convertiti in embeddings che catturano le caratteristiche visive. Questo è fondamentale per compiti come il recupero di immagini (trovare immagini visivamente simili), la classificazione di immagini e serve come base per compiti più complessi come il rilevamento di oggetti e la segmentazione di immagini eseguita da modelli come Ultralytics YOLO. Esempio: Una piattaforma di e-commerce utilizza le incorporazioni di immagini per consentire agli utenti di caricare la foto di un capo di abbigliamento e trovare prodotti simili nel proprio catalogo. Piattaforme come Ultralytics HUB facilitano la formazione e l'implementazione di questi modelli.
  • Graph Analytics: Gli embeddings possono rappresentare i nodi e i bordi dei grafi, catturando la struttura della rete e le relazioni tra i nodi per attività come la previsione dei collegamenti o il rilevamento delle comunità, spesso utilizzando le reti neurali grafiche (GNN).

Incorporamenti e concetti correlati

È utile distinguere gli embeddings dai termini correlati:

  • Embeddings vs. estrazione di caratteristiche: Gli embeddings sono una forma sofisticata e spesso automatizzata di estrazione di caratteristiche ottenuta attraverso il deep learning. Mentre l'ingegneria tradizionale delle caratteristiche potrebbe comportare la definizione manuale delle caratteristiche (ad esempio, gli istogrammi di colore per le immagini), gli embeddings apprendono le caratteristiche rilevanti direttamente dai dati durante l'addestramento.
  • Embeddings vs. Ricerca vettoriale / Database vettoriali: Gli embeddings sono rappresentazioni vettoriali dei dati. La ricerca vettoriale è il processo di interrogazione di una collezione di embeddings per trovare quelli più simili (più vicini) a un vettore di interrogazione, spesso utilizzando algoritmi di Approximate Nearest Neighbor (ANN) per aumentare l'efficienza. I database vettoriali (come Pinecone o Milvus) sono database specializzati ottimizzati per memorizzare, indicizzare ed eseguire ricerche vettoriali veloci su grandi volumi di embeddings.

Gli embeddings rappresentano un modo potente di rappresentare i dati per i modelli di apprendimento automatico, consentendo loro di comprendere le somiglianze semantiche e i modelli complessi in diversi tipi di dati, dal testo alle immagini. Sono una tecnologia fondamentale che guida i progressi in numerose applicazioni di IA e sono parte integrante delle funzionalità dei moderni framework di ML come PyTorch e TensorFlow.

Leggi tutto