Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Token

Scopri come i token, i mattoni fondamentali dei modelli di IA, alimentano l'elaborazione del linguaggio naturale (NLP), la computer vision e attività come l'analisi del sentiment e il rilevamento di oggetti.

Nel panorama dell'intelligenza intelligenza artificiale, un token funge da come unità atomica fondamentale di informazioni che un modello di apprendimento automatico elabora. Prima che una prima che una rete neurale possa analizzare una frase, un codice prima che una rete neurale possa analizzare una frase, un frammento di codice o persino un'immagine, i dati grezzi devono essere segmentati in questi pezzi discreti e gestibili attraverso una fase critica di preelaborazione dei dati. fase di preelaborazione dei dati. Mentre gli esseri umani mentre l'uomo percepisce il linguaggio come un flusso di parole o le immagini come una scena continua, gli algoritmi richiedono la scomposizione di questi input in elementi standardizzati per poter eseguire in elementi standardizzati per eseguire i calcoli in modo efficiente.

Token vs. Tokenizzazione

Per capire come funzionano i moderni sistemi di deep learning è essenziale distinguere tra l'unità di dati e il processo che li crea. Questa distinzione è spesso chiarita confrontando il "cosa" con il "come".

  • Token: Questo è l'output, il pezzo effettivo di dati immesso nel modello. Nell'elaborazione del testo, un token può rappresentare un'intera parola, una parte di una parola (sottoparola) o un singolo carattere. Nella computer vision, spesso rappresenta una una specifica porzione di pixel.
  • Tokenizzazione: Si tratta del processo processo algoritmico di suddivisione dei dati grezzi in token. Ad esempio, strumenti specializzati in librerie come spaCy o NLTK gestiscono le regole per stabilire dove token finisce e inizia il successivo.

Il ruolo dei token nelle architetture di intelligenza artificiale

Una volta che i dati sono stati tokenizzati, i token risultanti non vengono utilizzati direttamente come stringhe di testo o patch di immagini. Invece, vengono mappati in vettori numerici noti come embeddings. Questi vettori vettori ad alta dimensionalità catturano il significato semantico e le relazioni tra i token, consentendo a framework come PyTorch di eseguire operazioni matematiche su di essi.

Gettoni di testo in NLP

In Elaborazione del linguaggio naturale (NLP), token sono gli input per modelli linguistici di grandi dimensioni (LLM) come la serie serie GPT. I modelli moderni utilizzano in genere algoritmi di tokenizzazione di sottoparole, come la Byte Pair Encoding (BPE). Questo metodo bilancia efficienza e dimensione del vocabolario, mantenendo le parole comuni come singoli token e suddividendo le parole rare in sillabe significative. sillabe significative.

Gettoni visivi nella visione artificiale

Il concetto di token ha rivoluzionato l'analisi delle immagini grazie ad architetture come il Vision Transformer (ViT). Invece di di elaborare i pixel tramite convoluzione, questi modelli dividono un'immagine in una griglia di patch di dimensioni fisse (ad esempio, 16x16 pixel). Ogni patch viene appiattita e trattata come un "gettone visivo", consentendo l'uso di potenti meccanismi di trasformazione come il ViT. Meccanismi del trasformatore come l 'autoattenzione per comprendere il contesto globale all'interno un'immagine.

Applicazioni nel mondo reale

I gettoni sono gli elementi costitutivi di alcune delle funzionalità più avanzate dell'IA di oggi.

  1. Rilevamento di oggetti a vocabolario aperto: Modelli come YOLO utilizzano un approccio multimodale in cui testo e immagini tokens di testo e di immagine. Gli utenti possono definire classi personalizzate (ad esempio, "zaino blu") come prompt di testo. Il modello tokenizza questi suggerimenti e li confronta con i tokens visivi nell'immagine per eseguire il di apprendimento a colpo zero, senza bisogno di riqualificazione.
  2. IA generativa e chatbot: Quando si interagisce con un chatbot, il sistema utilizza generazione del testo per predire il più probabile token più probabile in una sequenza. Questa previsione token per token consente di creare risposte coerenti e contestualmente rilevanti, per applicazioni che vanno dall'assistenza clienti al completamento di codici. risposte coerenti e pertinenti al contesto, per applicazioni che vanno dall'assistenza clienti al completamento di codici.

Esempio: Utilizzo di token di testo per il rilevamento

L'esempio seguente mostra come l'opzione ultralytics Il pacchetto sfrutta i token dietro le quinte. Fornendo un elenco di classi di testo un elenco di classi di testo, il modello tokenizza questi input per identificare oggetti specifici in un'immagine dinamicamente.

from ultralytics import YOLO

# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")

# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])

# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

La comprensione dei gettoni è fondamentale per capire come i modelli di fondazione colmano il divario tra dati umani non strutturati e la comprensione computazionale. classificazione delle immagini o per compiti linguistici complessi. linguistici complessi.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora