Glossário

Ficha

Saiba como os tokens, os blocos de construção dos modelos de IA, potenciam a PNL, a visão por computador e tarefas como a análise de sentimentos e a deteção de objectos.

Na inteligência artificial, um token é a unidade fundamental e discreta de dados que um modelo processa. Antes de um modelo de IA poder analisar um texto ou uma imagem, os dados em bruto têm de ser divididos nestas partes geríveis. Para um modelo de linguagem, um token pode ser uma palavra, uma parte de uma palavra (uma subpalavra) ou um único carácter. Para um modelo de visão por computador (CV), um token pode ser um pequeno fragmento de tamanho fixo de uma imagem. Este processo de decomposição de dados é um primeiro passo crítico no pipeline de pré-processamento de dados, uma vez que converte dados complexos e não estruturados num formato estruturado que as redes neuronais podem compreender.

Token vs. Tokenização

É essencial distinguir entre um "token" e uma"tokenização".

  • Token: A unidade individual que resulta do processo de decomposição. É a parte real dos dados - como a palavra "aprender" ou uma imagem de 16x16 pixéis - que é introduzida no modelo.
  • Tokenização: O método ou processo de efetuar esta decomposição. É a ação de converter uma sequência de texto ou uma imagem numa sequência de tokens.

Em suma, a tokenização é a ação e um token é o resultado dessa ação.

Tipos de fichas e sua importância

Os tokens são os blocos de construção para a forma como os modelos de IA percepcionam e interpretam os dados. Uma vez que os dados são tokenizados, cada token é normalmente mapeado para uma representação vetorial numérica chamada de embedding. Essas incorporações capturam o significado semântico e o contexto, permitindo que modelos criados com estruturas como PyTorch ou TensorFlow aprendam padrões complexos.

  • Tokens de palavras e subpalavras: No Processamento de Linguagem Natural (PLN), o uso de palavras inteiras como tokens pode levar a vocabulários enormes e problemas com palavras desconhecidas. A tokenização de subpalavras, usando algoritmos como Byte Pair Encoding (BPE) ou WordPiece, é uma solução comum. Esta solução divide as palavras raras em partes mais pequenas e significativas. Por exemplo, a palavra "tokenization" pode tornar-se em dois tokens: "token" e "##ization". Esta abordagem, utilizada por modelos como o BERT e o GPT-4, ajuda o modelo a lidar com vocabulário complexo e estruturas gramaticais. Pode explorar implementações modernas em bibliotecas como Hugging Face Tokenizers.

  • Tokens visuais: O conceito de tokens estende-se para além do texto, para a visão por computador. Em modelos como o Vision Transformer (ViT), uma imagem é dividida numa grelha de manchas (por exemplo, 16x16 pixéis). Cada fragmento é achatado e tratado como um "símbolo visual". Isto permite que as poderosas arquitecturas Transformer, que se destacam no processamento de sequências utilizando a auto-atenção, executem tarefas como a classificação de imagens e a deteção de objectos. Esta abordagem baseada em tokens é também fundamental para modelos multimodais que compreendem imagens e texto, como o CLIP.

Aplicações no mundo real

A utilização de fichas é fundamental para inúmeros sistemas de IA, desde aplicações simples a modelos complexos e de vanguarda.

  1. Tradução automática: Serviços como o Google Translate baseiam-se fortemente em tokens. Quando se introduz uma frase, esta é primeiro dividida numa sequência de tokens de texto. Um modelo sofisticado de sequência para sequência processa estes tokens, compreende o seu significado coletivo e gera uma nova sequência de tokens na língua de chegada. Estes tokens de saída são então reunidos numa frase coerente traduzida. Este processo permite a tradução em tempo real em dezenas de línguas.

  2. Veículos autónomos: No domínio dos veículos autónomos, os modelos têm de interpretar cenas visuais complexas em tempo real. Um modelo como o Ultralytics YOLO11 processa os feeds da câmara para realizar tarefas como o seguimento de objectos e a segmentação de instâncias. Embora os modelos clássicos baseados em CNN, como o YOLO, não utilizem explicitamente "tokens" da mesma forma que os Transformers, as variantes de transformadores de visão concebidas para deteção utilizam-nos. Dividem a entrada visual em símbolos (patches) para identificar e localizar peões, outros veículos e sinais de trânsito com elevada precisão. Esta compreensão tokenizada do ambiente é crucial para uma navegação segura. A gestão de todo o fluxo de trabalho, desde a recolha de dados até à implementação do modelo, pode ser simplificada utilizando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência