Scopri come i token, i mattoni fondamentali dei modelli di IA, alimentano l'elaborazione del linguaggio naturale (NLP), la computer vision e attività come l'analisi del sentiment e il rilevamento di oggetti.
Nel panorama dell'intelligenza intelligenza artificiale, un token funge da come unità atomica fondamentale di informazioni che un modello di apprendimento automatico elabora. Prima che una prima che una rete neurale possa analizzare una frase, un codice prima che una rete neurale possa analizzare una frase, un frammento di codice o persino un'immagine, i dati grezzi devono essere segmentati in questi pezzi discreti e gestibili attraverso una fase critica di preelaborazione dei dati. fase di preelaborazione dei dati. Mentre gli esseri umani mentre l'uomo percepisce il linguaggio come un flusso di parole o le immagini come una scena continua, gli algoritmi richiedono la scomposizione di questi input in elementi standardizzati per poter eseguire in elementi standardizzati per eseguire i calcoli in modo efficiente.
Per capire come funzionano i moderni sistemi di deep learning è essenziale distinguere tra l'unità di dati e il processo che li crea. Questa distinzione è spesso chiarita confrontando il "cosa" con il "come".
Una volta che i dati sono stati tokenizzati, i token risultanti non vengono utilizzati direttamente come stringhe di testo o patch di immagini. Invece, vengono mappati in vettori numerici noti come embeddings. Questi vettori vettori ad alta dimensionalità catturano il significato semantico e le relazioni tra i token, consentendo a framework come PyTorch di eseguire operazioni matematiche su di essi.
In Elaborazione del linguaggio naturale (NLP), token sono gli input per modelli linguistici di grandi dimensioni (LLM) come la serie serie GPT. I modelli moderni utilizzano in genere algoritmi di tokenizzazione di sottoparole, come la Byte Pair Encoding (BPE). Questo metodo bilancia efficienza e dimensione del vocabolario, mantenendo le parole comuni come singoli token e suddividendo le parole rare in sillabe significative. sillabe significative.
Il concetto di token ha rivoluzionato l'analisi delle immagini grazie ad architetture come il Vision Transformer (ViT). Invece di di elaborare i pixel tramite convoluzione, questi modelli dividono un'immagine in una griglia di patch di dimensioni fisse (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un "gettone visivo", consentendo l'uso di potenti meccanismi di trasformazione come il ViT. Meccanismi del trasformatore come l 'autoattenzione per comprendere il contesto globale all'interno un'immagine.
I gettoni sono gli elementi costitutivi di alcune delle funzionalità più avanzate dell'IA di oggi.
L'esempio seguente mostra come l'opzione ultralytics Il pacchetto sfrutta i token dietro le quinte. Fornendo un elenco di classi di testo
un elenco di classi di testo, il modello tokenizza questi input per identificare oggetti specifici in un'immagine
dinamicamente.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
La comprensione dei gettoni è fondamentale per capire come i modelli di fondazione colmano il divario tra dati umani non strutturati e la comprensione computazionale. classificazione delle immagini o per compiti linguistici complessi. linguistici complessi.