Token
Scopri come i token fungono da unità fondamentali di informazione nell'IA. Esplora il loro ruolo nell'NLP, nella computer vision e nel rilevamento a vocabolario aperto con YOLO26.
Nella sofisticata architettura della moderna intelligenza artificiale, un token rappresenta l'unità fondamentale e atomica di informazione elaborata da un modello. Prima che un algoritmo possa interpretare una frase, analizzare uno script software o riconoscere oggetti in un'immagine, i dati di input grezzi devono essere suddivisi in questi elementi discreti e standardizzati. Questa segmentazione è un passaggio fondamentale nella preelaborazione dei dati, che trasforma input non strutturati in un formato numerico che le reti neurali possono calcolare in modo efficiente. Mentre gli esseri umani percepiscono il linguaggio come un flusso continuo di pensieri o le immagini come scene visive senza interruzioni, i modelli computazionali richiedono questi blocchi costitutivi granulari per eseguire operazioni come il riconoscimento di pattern e l'analisi semantica.
Link to this sectionToken vs. Tokenizzazione#
Per comprendere i meccanismi dell'apprendimento automatico, è essenziale distinguere tra l'unità di dati e il processo utilizzato per crearla. Questa differenziazione evita confusione durante la progettazione di pipeline di dati e la preparazione di materiale di addestramento sulla Ultralytics Platform.
- Tokenizzazione: Questo è il processo algoritmico (il verbo) di suddivisione dei dati grezzi in pezzi. Per il testo, ciò potrebbe comportare l'uso di librerie come il Natural Language Toolkit (NLTK) per determinare dove finisce un'unità e ne inizia un'altra.
- Token: Questo è l'output risultante (il sostantivo). È il blocco di dati effettivo, come una parola, una sottoparola o una porzione di immagine, che viene infine mappato su un vettore numerico noto come embedding.
Link to this sectionI token in diversi domini AI#
La natura di un token varia in modo significativo a seconda della modalità dei dati elaborati, in particolare tra i domini testuali e visivi.
Link to this sectionToken di testo nell'NLP#
Nel campo dell'elaborazione del linguaggio naturale (NLP), i token sono gli input per i Large Language Models (LLM). I primi approcci mappavano rigorosamente parole intere, ma le architetture moderne utilizzano algoritmi di sottoparole come Byte Pair Encoding (BPE). Questo metodo consente ai modelli di gestire parole rare suddividendole in sillabe significative, bilanciando la dimensione del vocabolario con la copertura semantica. Ad esempio, la parola "unhappiness" potrebbe essere tokenizzata in "un", "happi" e "ness".
Link to this sectionToken visivi nella visione artificiale#
Il concetto di tokenizzazione si è esteso alla visione artificiale con l'avvento del Vision Transformer (ViT). A differenza delle tradizionali reti convoluzionali che elaborano i pixel in finestre scorrevoli, i Transformer dividono un'immagine in una griglia di patch di dimensioni fisse (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un token visivo distinto. Questo approccio consente al modello di utilizzare meccanismi di auto-attenzione per comprendere la relazione tra parti distanti di un'immagine, in modo simile a come Google Research ha applicato originariamente i transformer al testo.
Link to this sectionApplicazioni nel mondo reale#
I token fungono da ponte tra i dati umani e l'intelligenza delle macchine in innumerevoli applicazioni.
-
Rilevamento oggetti a vocabolario aperto (Open-Vocabulary): Modelli avanzati come YOLO-World utilizzano un approccio multimodale in cui i token di testo interagiscono con le caratteristiche visive. Puoi inserire prompt di testo personalizzati (ad esempio, "casco blu"), che il modello tokenizza e confronta con gli oggetti nell'immagine. Ciò abilita l'apprendimento zero-shot, consentendo il rilevamento di oggetti su cui il modello non è stato addestrato esplicitamente.
-
IA generativa: Nei sistemi di generazione del testo come i chatbot, l'IA opera prevedendo la probabilità del token successivo in una sequenza. Selezionando iterativamente il token successivo più probabile, il sistema costruisce frasi e paragrafi coerenti, alimentando strumenti che spaziano dal supporto clienti automatizzato agli assistenti virtuali.
Link to this sectionEsempio in Python: utilizzo di token di testo per il rilevamento#
Il seguente snippet di codice dimostra come il pacchetto ultralytics utilizzi i token di testo per guidare il rilevamento oggetti. Sebbene il YOLO26 all'avanguardia sia consigliato per l'inferenza ad alta velocità su classi fisse, l'architettura YOLO-World consente in modo unico agli utenti di definire le classi come token di testo in fase di runtime.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()Comprendere i token è fondamentale per navigare nel panorama dell'IA generativa e dell'analisi avanzata. Che si tratti di consentire a un chatbot di conversare in modo fluido o di aiutare un sistema di visione a distinguere tra sottili classi di oggetti, i token rimangono la valuta essenziale dell'intelligenza delle macchine utilizzata da framework come PyTorch e TensorFlow.






