Scoprite come i token, gli elementi costitutivi dei modelli di IA, alimentano l'NLP, la computer vision e attività come l'analisi del sentimento e il rilevamento degli oggetti.
Nell'intelligenza artificiale, un token è l'unità fondamentale e discreta di dati che un modello elabora. Prima che un modello di intelligenza artificiale possa analizzare un testo o un'immagine, i dati grezzi devono essere suddivisi in questi pezzi gestibili. Per un modello linguistico, un token può essere una parola, una parte di una parola (una sottoparola) o un singolo carattere. Per un modello di computer vision (CV), un token può essere una piccola porzione di immagine di dimensioni fisse. Questo processo di scomposizione dei dati è un primo passo fondamentale nella pipeline di preelaborazione dei dati, in quanto converte dati complessi e non strutturati in un formato strutturato comprensibile alle reti neurali.
È essenziale distinguere tra "token" e"tokenizzazione".
In breve, la tokenizzazione è l'azione e un token è il risultato di tale azione.
I token sono gli elementi costitutivi del modo in cui i modelli di intelligenza artificiale percepiscono e interpretano i dati. Una volta che i dati sono stati tokenizzati, ogni token viene tipicamente mappato in una rappresentazione vettoriale numerica chiamata embedding. Questi embedding catturano il significato semantico e il contesto, consentendo ai modelli costruiti con framework come PyTorch o TensorFlow di apprendere modelli complessi.
Token di parole e sottoparole: Nell'elaborazione del linguaggio naturale (NLP), l'uso di parole intere come token può portare a vocabolari enormi e a problemi con parole sconosciute. La tokenizzazione delle sottoparole, utilizzando algoritmi come Byte Pair Encoding (BPE) o WordPiece, è una soluzione comune. Si tratta di scomporre le parole rare in parti più piccole e significative. Ad esempio, la parola "tokenization" potrebbe diventare due token: "token" e "##ization". Questo approccio, utilizzato da modelli come BERT e GPT-4, aiuta il modello a gestire vocaboli e strutture grammaticali complesse. È possibile esplorare le moderne implementazioni in librerie come Hugging Face Tokenizers.
Gettoni visivi: Il concetto di token si estende al di là del testo nella visione computerizzata. In modelli come il Vision Transformer (ViT), un'immagine viene divisa in una griglia di patch (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un "token visivo". Ciò consente alle potenti architetture Transformer, che eccellono nell'elaborazione di sequenze utilizzando l'autoattenzione, di eseguire compiti come la classificazione delle immagini e il rilevamento degli oggetti. Questo approccio basato sui token è fondamentale anche per i modelli multimodali che comprendono sia le immagini che il testo, come CLIP.
L'uso dei token è fondamentale per innumerevoli sistemi di IA, da semplici applicazioni a modelli complessi e all'avanguardia.
Traduzione automatica: Servizi come Google Translate si basano molto sui token. Quando si inserisce una frase, questa viene prima scomposta in una sequenza di token di testo. Un sofisticato modello sequenza-sequenza elabora questi token, ne comprende il significato collettivo e genera una nuova sequenza di token nella lingua di destinazione. Questi token in uscita vengono poi assemblati in una frase tradotta coerente. Questo processo consente di tradurre in tempo reale decine di lingue.
Veicoli autonomi: Nel campo dei veicoli autonomi, i modelli devono interpretare scene visive complesse in tempo reale. Un modello come Ultralytics YOLO11 elabora i feed delle telecamere per eseguire compiti come il tracciamento degli oggetti e la segmentazione delle istanze. Mentre i modelli classici basati su CNN come YOLO non utilizzano esplicitamente i "token" come i trasformatori, le varianti dei trasformatori di visione progettati per il rilevamento lo fanno. Essi suddividono l'input visivo in tokens (patch) per identificare e localizzare pedoni, altri veicoli e segnali stradali con un'elevata precisione. Questa comprensione tokenizzata dell'ambiente è fondamentale per una navigazione sicura. La gestione dell'intero flusso di lavoro, dalla raccolta dei dati alla distribuzione dei modelli, può essere semplificata utilizzando piattaforme come Ultralytics HUB.