Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Token

Scopri come i token, i mattoni fondamentali dei modelli di IA, alimentano l'elaborazione del linguaggio naturale (NLP), la computer vision e attività come l'analisi del sentiment e il rilevamento di oggetti.

Nell'intelligenza artificiale, un token è l'unità di dati fondamentale e discreta che un modello elabora. Prima che un modello AI possa analizzare un testo o un'immagine, i dati grezzi devono essere suddivisi in questi elementi gestibili. Per un modello linguistico, un token potrebbe essere una parola, una parte di una parola (una sotto-parola) o un singolo carattere. Per un modello di computer vision (CV), un token può essere una piccola patch di dimensione fissa di un'immagine. Questo processo di suddivisione dei dati è un primo passo fondamentale nella pipeline di data preprocessing, in quanto converte dati complessi e non strutturati in un formato strutturato che le reti neurali possono comprendere.

Token vs. Tokenizzazione

È essenziale distinguere tra un 'token' e la 'tokenizzazione'.

  • Token: L'unità individuale che risulta dal processo di suddivisione. È il dato effettivo, come la parola "impara" o una patch di immagine di 16x16 pixel, che viene inserito nel modello.
  • Tokenizzazione: Il metodo o processo di esecuzione di questa suddivisione. È l'azione di convertire una sequenza di testo o un'immagine in una sequenza di token.

In breve, la tokenizzazione è l'azione e un token è il risultato di tale azione.

Tipi di token e la loro importanza

I token sono gli elementi costitutivi del modo in cui i modelli di IA percepiscono e interpretano i dati. Una volta che i dati sono stati tokenizzati, ogni token viene in genere mappato a una rappresentazione vettoriale numerica chiamata embedding. Questi embedding catturano il significato semantico e il contesto, consentendo ai modelli creati con framework come PyTorch o TensorFlow di apprendere pattern complessi.

  • Token di parole e sub-parole: Nell'elaborazione del linguaggio naturale (NLP), l'utilizzo di intere parole come token può portare a vocabolari enormi e problemi con parole sconosciute. La tokenizzazione di sub-parole, utilizzando algoritmi come la codifica a coppie di byte (BPE) o WordPiece, è una soluzione comune. Scompone le parole rare in parti più piccole e significative. Ad esempio, la parola "tokenizzazione" potrebbe diventare due token: "token" e "##izzazione". Questo approccio, utilizzato da modelli come BERT e GPT-4, aiuta il modello a gestire vocabolari complessi e strutture grammaticali. Puoi esplorare le implementazioni moderne in librerie come Hugging Face Tokenizers.

  • Token visivi: Il concetto di token si estende oltre il testo nella computer vision. In modelli come il Vision Transformer (ViT), un'immagine viene divisa in una griglia di patch (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un "token visivo". Ciò consente a potenti architetture Transformer, che eccellono nell'elaborazione di sequenze utilizzando l'auto-attenzione, di eseguire attività come la classificazione delle immagini e il rilevamento degli oggetti. Questo approccio basato su token è anche fondamentale per i modelli multi-modali che comprendono sia immagini che testo, come CLIP.

Applicazioni nel mondo reale

L'uso di token è fondamentale per innumerevoli sistemi di intelligenza artificiale, dalle semplici applicazioni ai modelli complessi e all'avanguardia.

  1. Traduzione automatica: Servizi come Google Translate si basano fortemente sui token. Quando si inserisce una frase, questa viene prima suddivisa in una sequenza di token di testo. Un sofisticato modello sequence-to-sequence elabora questi token, ne comprende il significato collettivo e genera una nuova sequenza di token nella lingua di destinazione. Questi token di output vengono quindi riassemblati in una frase tradotta coerente. Questo processo consente la traduzione in tempo reale in decine di lingue.

  2. Veicoli Autonomi: Nel campo dei veicoli autonomi, i modelli devono interpretare scene visive complesse in tempo reale. Un modello come Ultralytics YOLO11 elabora i feed della telecamera per eseguire attività come il tracciamento degli oggetti e la segmentazione delle istanze. Mentre i modelli classici basati su CNN come YOLO non utilizzano esplicitamente "token" nello stesso modo dei Transformer, esistono varianti di vision transformer progettate per il rilevamento. Questi suddividono l'input visivo in token (patch) per identificare e localizzare pedoni, altri veicoli e segnali stradali con elevata precisione. Questa comprensione tokenizzata dell'ambiente è fondamentale per una navigazione sicura. La gestione dell'intero flusso di lavoro, dalla raccolta dei dati all'implementazione del modello, può essere semplificata utilizzando piattaforme come Ultralytics HUB.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti