Glossário

Ficha

Aprende como os tokens, os blocos de construção dos modelos de IA, potenciam a PNL, a visão por computador e tarefas como a análise de sentimentos e a deteção de objectos.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

No domínio da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), particularmente no Processamento de Linguagem Natural (PLN) e cada vez mais na visão por computador, um "token" representa a unidade de dados mais pequena que um modelo processa. Pensa nos tokens como os blocos de construção fundamentais que os modelos de IA utilizam para compreender e analisar a informação, quer se trate de texto, imagens ou outras formas de dados. São essenciais para converter a entrada bruta num formato que os algoritmos podem interpretar e aprender, formando a base para muitas tarefas complexas de IA.

Compreender os Tokens

Os tokens são os resultados discretos de um processo chamado tokenização. Na PNL, por exemplo, uma frase comoUltralytics YOLO is fast and accurate" pode ser tokenizada em palavras individuais: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. Dependendo da estratégia de tokenização específica, os tokens também podem ser unidades de sub-palavras (por exemplo, "Ultra", "lytics") ou mesmo caracteres individuais. Esta decomposição transforma texto contínuo ou dados complexos em partes geríveis.

A razão pela qual os tokens são cruciais é que a maioria dos modelos de aprendizagem profunda, incluindo arquitecturas poderosas como os Transformers utilizados em muitos sistemas modernos de IA, não podem processar diretamente dados brutos e não estruturados. Requerem dados num formato estruturado, frequentemente numérico. A tokenização fornece essa ponte. Quando os dados são tokenizados, cada token é normalmente mapeado para uma representação numérica, como um ID num vocabulário ou, mais comummente, representações vectoriais densas chamadas embeddings. Esses embeddings capturam as relações semânticas entre os tokens, que os modelos aprendem durante o treinamento.

Métodos de Tokenização

Existem diferentes métodos para dividir os dados em tokens:

  • Tokenização baseada em palavras: Divide o texto com base em espaços e pontuação. Simples, mas tem dificuldades com grandes vocabulários e palavras desconhecidas.
  • Tokenização baseada em caracteres: Usa caracteres individuais como tokens. Lida com qualquer palavra, mas resulta em sequências muito longas.
  • Tokenização de subpalavras: Um equilíbrio entre os métodos de palavras e caracteres. Técnicas como Byte Pair Encoding (BPE) ou WordPiece dividem as palavras em subunidades comuns, lidando eficazmente com grandes vocabulários e palavras raras. Estas técnicas são amplamente utilizadas em modelos de linguagem de grande dimensão (LLMs).

Tokens vs. Conceitos relacionados

É importante distinguir os tokens dos termos relacionados:

  • Token vs. Tokenização: Um token é a unidade de saída (por exemplo,Ultralytics", "patch de imagem"), enquanto a tokenização é o processo de criação dessas unidades a partir de dados brutos.
  • Token vs. Incorporação: Um token é uma unidade discreta de entrada. Um embedding é normalmente um vetor numérico denso que representa o token, capturando o seu significado de uma forma que o modelo possa compreender. Os tokens são frequentemente convertidos em word embeddings ou visual embeddings antes de serem introduzidos no modelo.

Aplicações dos Tokens

Os tokens são fundamentais em vários domínios da IA. Eis dois exemplos concretos:

  1. Tradução automática: Em serviços como o Google Translate, uma frase de entrada numa língua é primeiro tokenizada. Estes tokens são processados por um modelo sequência-a-sequência (frequentemente um Transformer), que depois gera tokens que representam a frase traduzida na língua de chegada. A escolha da tokenização tem um impacto significativo na precisão e fluência da tradução. LLMs como o GPT-4 e o BERT dependem fortemente do processamento de tokens para tarefas que incluem tradução, geração de texto e análise de sentimentos. Técnicas como a afinação e o encadeamento de pedidos envolvem a manipulação de sequências de tokens de entrada para orientar o comportamento do modelo.

  2. Visão computacional com transformadores: Embora tradicionalmente associados à PNL, os tokens são agora fundamentais para modelos avançados de visão computacional, como os Transformadores de Visão (ViTs). Num ViT, uma imagem é dividida em manchas de tamanho fixo e não sobrepostas (por exemplo, 16x16 pixéis). Cada fragmento é tratado como um "símbolo visual". Estes tokens são incorporados linearmente e introduzidos numa arquitetura Transformer, que utiliza mecanismos de atenção para analisar as relações entre diferentes partes da imagem. Esta abordagem é utilizada para tarefas como a classificação de imagens, a deteção de objectos e a segmentação de imagens. Modelos como o Segment Anything Model (SAM) utilizam essa abordagem baseada em tokens. Mesmo em modelos convolucionais como o Ultralytics YOLOv8 ou o mais recente Ultralytics YOLO11o sistema de células em grelha utilizado para a deteção pode ser visto como uma forma implícita de tokenização espacial.

Compreender os tokens é fundamental para perceber como os modelos de IA interpretam e processam a informação. À medida que a IA evolui, o conceito de tokens e os métodos para os criar continuarão a ser fundamentais para lidar com diversos tipos de dados e construir modelos mais sofisticados para aplicações que vão desde a análise de imagens médicas a veículos autónomos. Plataformas como o Ultralytics HUB fornecem ferramentas para gerenciar conjuntos de dados e treinar modelos, muitas vezes envolvendo dados que são implícita ou explicitamente tokenizados.

Lê tudo