Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Tokenizzazione

Scopri la potenza della tokenizzazione in NLP e ML! Scopri come la suddivisione del testo in token migliora le attività di IA come l'analisi del sentiment e la generazione di testo.

La tokenizzazione è il processo fondamentale di conversione di un flusso di dati grezzi, come testo, codice o immagini, in unità discrete più piccole, dette token, unità discrete più piccole, note come token. Questa trasformazione agisce come un ponte critico nella di preelaborazione dei dati, traducendo informazioni umane non strutturate in un formato numerico che i sistemi di intelligenza sistemi di intelligenza artificiale (AI) possono interpretare. Scomponendo i dati complessi in parti gestibili, la tokenizzazione permette ai modelli di machine learning di modelli di apprendimento automatico di identificare modelli, di imparare le relazioni semantiche e di eseguire sofisticate operazioni di inferenza. Senza questa fase iniziale, le reti neurali che alimentano la tecnologia moderna moderne non sarebbero in grado di elaborare i vasti insiemi di dati necessari per l'addestramento.

Tokenizzazione vs. Token

Sebbene i termini siano spesso utilizzati in stretta relazione, è importante distinguere il metodo dal risultato.

  • La tokenizzazione è l'azione o l'algoritmo applicato ai dati. Comporta regole specifiche per dividere le stringhe o segmentare le immagini. Strumenti come spaCy o NLTK facilitano questo processo per il testo.
  • Token è l'unità di output generata dal processo. Per maggiori dettagli sulla natura di queste unità, consultare la pagina di glossario relativa ai token.

Come funziona la tokenizzazione nell'IA

L'applicazione della tokenizzazione varia in modo significativo a seconda del tipo di dati da elaborare, anche se l'obiettivo finale di generare embeddings-vettoriali l'obiettivo finale di generare incorporazioni-vettore rappresentazioni vettoriali dei dati, rimane lo stesso.

Tokenizzazione del testo in NLP

In Elaborazione del linguaggio naturale (NLP), il processo consiste nel dividere le frasi in parole, sottoparole o caratteri. I primi metodi dividevano il testo semplicemente spazi bianchi, ma i moderni modelli linguistici di grandi dimensioni (LLM) utilizzano algoritmi avanzati come la codifica a coppie di byte (BPE) per gestire in modo gestire in modo efficiente le parole rare. Questo permette a modelli come GPT-4 di elaborare vocaboli complessi senza bisogno di un dizionario dizionario infinito.

Tokenizzazione visiva in Computer Vision

Tradizionalmente, la Computer Vision (CV) opera su matrici di pixel. Tuttavia, l'avvento del Vision Transformer (ViT) ha introdotto il concetto di suddivisione dell'immagine in patch di dimensioni fisse (ad esempio, 16x16 pixel). Queste patch vengono appiattite e trattate come token visivi, consentendo al modello di usare l'autoattenzione per di autoattenzione per pesare l'importanza delle diverse regioni dell'immagine, in modo simile a come viene elaborata una frase.

Applicazioni nel mondo reale

La tokenizzazione non è solo un concetto teorico, ma alimenta molte delle applicazioni di intelligenza artificiale utilizzate quotidianamente.

  1. Rilevamento multimodale: Modelli avanzati come YOLO colmano il divario tra testo e visione. Tramite la tokenizzazione dell'input dell'utente (ad esempio tokenizzando l'input dell'utente (ad esempio, "auto rossa") e confrontandolo con le caratteristiche visive, questi modelli eseguono il rilevamento di oggetti di oggetti a vocabolario aperto senza bisogno di di essere riaddestrati esplicitamente su nuove classi.
  2. Traduzione linguistica: Servizi come Google Translate si basano sulla scomposizione del testo in ingresso in token, traducendo attraverso un modello modello sequenza-sequenza e riassemblare i token in uscita nella lingua di destinazione.
  3. Arte generativa: Modelli in grado di generazione da testo a immagine, come Stable Diffusion, tokenizzano le richieste di testo per guidare il processo di il processo di denoising, creando immagini che si allineano al significato semantico dei token in ingresso.

Esempio: Tokenizzazione in YOLO

L'esempio seguente mostra come ultralytics utilizza una tokenizzazione implicita all'interno del file Modello YOLO flusso di lavoro. Il .set_classes() tokenizza l'elenco di testo per guidare dinamicamente il focus di rilevamento del modello.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Importanza nelle prestazioni del modello

La scelta della strategia di tokenizzazione ha un impatto diretto sulla sull'accuratezza e sull'efficienza computazionale. Una tokenizzazione inefficiente tokenization può portare a errori "fuori vocabolario" in NLP o alla perdita di dettagli fini nella segmentazione delle immagini. segmentazione delle immagini. Quadri come PyTorch e TensorFlow forniscono strumenti strumenti flessibili per ottimizzare questa fase. Con l'evolversi delle architetture, come le ultime YOLO11-l'elaborazione efficiente dei dati garantisce l'esecuzione di modelli di in tempo reale su hardware diversi, dalle potenti GPU del cloud ai dispositivi edge.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora