Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Token

Aprenda como os tokens, os blocos de construção dos modelos de IA, impulsionam o PNL, a visão computacional e tarefas como análise de sentimentos e detecção de objetos.

Em inteligência artificial, um token é a unidade de dados fundamental e discreta que um modelo processa. Antes que um modelo de IA possa analisar texto ou uma imagem, os dados brutos devem ser divididos nessas partes gerenciáveis. Para um modelo de linguagem, um token pode ser uma palavra, uma parte de uma palavra (uma subpalavra) ou um único caractere. Para um modelo de visão computacional (CV), um token pode ser um pequeno patch de tamanho fixo de uma imagem. Esse processo de divisão de dados é uma primeira etapa crítica no pipeline de pré-processamento de dados, pois converte dados complexos e não estruturados em um formato estruturado que as redes neurais podem entender.

Token vs. Tokenização

É essencial distinguir entre um 'token' e 'tokenização'.

  • Token: A unidade individual que resulta do processo de quebra. É a parte real dos dados—como a palavra "aprender" ou um patch de imagem de 16x16 pixels—que é alimentada no modelo.
  • Tokenização: O método ou processo de realizar essa quebra. É a ação de converter uma sequência de texto ou uma imagem em uma sequência de tokens.

Em resumo, a tokenização é a ação, e um token é o resultado dessa ação.

Tipos de Tokens e sua Importância

Os tokens são os blocos de construção de como os modelos de IA percebem e interpretam os dados. Uma vez que os dados são tokenizados, cada token é normalmente mapeado para uma representação vetorial numérica chamada embedding. Estes embeddings capturam o significado semântico e o contexto, permitindo que modelos construídos com frameworks como PyTorch ou TensorFlow aprendam padrões complexos.

  • Tokens de Palavras e Subpalavras: Em Processamento de Linguagem Natural (NLP), usar palavras inteiras como tokens pode levar a vocabulários enormes e problemas com palavras desconhecidas. A tokenização de subpalavras, usando algoritmos como Byte Pair Encoding (BPE) ou WordPiece, é uma solução comum. Ela divide palavras raras em partes menores e significativas. Por exemplo, a palavra "tokenization" pode se tornar dois tokens: "token" e "##ization". Esta abordagem, usada por modelos como BERT e GPT-4, ajuda o modelo a lidar com vocabulário complexo e estruturas gramaticais. Você pode explorar implementações modernas em bibliotecas como Hugging Face Tokenizers.

  • Tokens Visuais: O conceito de tokens se estende além do texto para a visão computacional. Em modelos como o Vision Transformer (ViT), uma imagem é dividida em uma grade de patches (por exemplo, 16x16 pixels). Cada patch é achatado e tratado como um "token visual". Isso permite que arquiteturas Transformer poderosas, que se destacam no processamento de sequências usando autoatenção, realizem tarefas como classificação de imagens e detecção de objetos. Essa abordagem baseada em tokens também é fundamental para modelos multimodais que entendem tanto imagens quanto texto, como o CLIP.

Aplicações no Mundo Real

O uso de tokens é fundamental para inúmeros sistemas de IA, desde aplicações simples até modelos complexos e de última geração.

  1. Tradução Automática: Serviços como o Google Tradutor dependem fortemente de tokens. Quando você insere uma frase, ela é primeiro dividida em uma sequência de tokens de texto. Um modelo de sequência para sequência sofisticado processa esses tokens, entende seu significado coletivo e gera uma nova sequência de tokens no idioma de destino. Esses tokens de saída são então remontados em uma frase traduzida coerente. Esse processo permite a tradução em tempo real em dezenas de idiomas.

  2. Veículos Autônomos: No campo de veículos autônomos, os modelos devem interpretar cenas visuais complexas em tempo real. Um modelo como o Ultralytics YOLO11 processa feeds de câmeras para realizar tarefas como rastreamento de objetos e segmentação de instâncias. Embora os modelos clássicos baseados em CNN, como o YOLO, não usem explicitamente "tokens" da mesma forma que os Transformers, as variantes de vision transformer projetadas para detecção o fazem. Eles dividem a entrada visual em tokens (patches) para identificar e localizar pedestres, outros veículos e sinais de trânsito com alta precisão. Essa compreensão tokenizada do ambiente é crucial para uma navegação segura. O gerenciamento de todo o fluxo de trabalho, desde a coleta de dados até a implantação do modelo, pode ser simplificado usando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência