Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Tokenização

Descubra o poder da tokenização em NLP e ML! Aprenda como dividir o texto em tokens aprimora tarefas de IA, como análise de sentimentos e geração de texto.

A tokenização é o processo algorítmico de dividir um fluxo de dados brutos — como texto, imagens ou áudio — em unidades menores e gerenciáveis chamadas tokens. Essa transformação atua como uma ponte crítica no pipeline de pré-processamento de dados, convertendo entradas não estruturadas em um formato numérico que os sistemas de inteligência artificial (IA) podem interpretar. Os computadores não conseguem compreender inerentemente a linguagem humana ou cenas visuais; eles requerem representações numéricas para realizar cálculos. Ao segmentar os dados em tokens, os engenheiros permitem que as redes neurais mapeiem essas unidades para embeddings— representações vetoriais que capturam o significado semântico . Sem essa etapa fundamental, os modelos de aprendizado de máquina seriam incapazes de identificar padrões, aprender o contexto ou processar os vastos conjuntos de dados necessários para o treinamento moderno.

Tokenização vs. Token

Embora os termos sejam frequentemente ouvidos juntos em discussões sobre aprendizagem profunda, é útil distinguir o método do resultado para compreender o fluxo de trabalho.

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • Token é a saída (o substantivo). É a unidade individual gerada pelo processo, como uma única palavra, uma subpalavra, um caractere ou um patch de pixels.

Métodos em diferentes domínios

A estratégia para tokenização varia significativamente dependendo da modalidade dos dados, influenciando a forma como um modelo base percebe o mundo.

Tokenização de texto em PNL

No Processamento de Linguagem Natural (NLP), o objetivo é segment preservando o significado. Os métodos iniciais baseavam-se em técnicas simples, como separar palavras por espaços ou remover palavras irrelevantes. No entanto, os modernos Modelos de Linguagem Grande (LLMs) utilizam algoritmos de subpalavras mais sofisticados, como Byte Pair Encoding (BPE) ou WordPiece. Esses algoritmos mesclam iterativamente os pares de caracteres mais frequentes, permitindo que o modelo lide com palavras raras, dividindo-as em subcomponentes familiares (por exemplo, «smartphones» torna-se «smart» + «phones»). Essa abordagem equilibra o tamanho do vocabulário com a capacidade de representar uma linguagem complexa.

Tokenização visual em visão computacional

Tradicionalmente, modelos de visão computacional (CV), como CNNs, processavam pixels usando janelas deslizantes. A introdução do Vision Transformer (ViT) mudou esse paradigma ao aplicar tokenização às imagens. A imagem é dividida em patches de tamanho fixo (por exemplo, 16x16 pixels), que são então achatados e projetados linearmente. Esses "tokens visuais" permitem que o modelo utilize mecanismos de autoatenção para aprender relações globais em toda a imagem, semelhante à forma como um Transformer processa uma frase.

Aplicações no Mundo Real

A tokenização é o motor silencioso por trás de muitas aplicações de IA utilizadas atualmente em ambientes de produção.

  1. Detecção de objetos com vocabulário aberto: arquiteturas avançadas como o YOLO empregam uma abordagem de modelo multimodal. Quando um utilizador insere um prompt como "pessoa usando um chapéu vermelho", o sistema tokeniza esse texto e o mapeia para o mesmo espaço de recursos que os dados visuais. Isso permite o aprendizado zero-shot, permitindo que o modelo detect nos quais não foi explicitamente treinado, combinando tokens de texto com recursos visuais.
  2. Arte e design generativos: Na geração de texto para imagem, as solicitações do utilizador são tokenizadas para orientar o processo de difusão. O modelo usa esses tokens para condicionar a geração, garantindo que a imagem resultante se alinhe com os conceitos semânticos (por exemplo, «pôr do sol», «praia») extraídos durante a fase de tokenização.

Python : Detecção baseada em tokens

O exemplo a seguir demonstra como o ultralytics O pacote utiliza tokenização de texto implicitamente no fluxo de trabalho YOLO. Ao definir classes personalizadas, o modelo tokeniza essas cadeias de caracteres para procurar objetos específicos dinamicamente.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Impacto no desempenho do modelo

A escolha da estratégia de tokenização tem impacto direto na precisão e na eficiência computacional. Uma tokenização ineficiente pode levar a erros de «vocabulário insuficiente» em NLP ou à perda de detalhes minuciosos na análise de imagens . Estruturas como PyTorch e TensorFlow fornecem ferramentas flexíveis para otimizar esta etapa. À medida que as arquiteturas evoluem — como o YOLO26de última geração — o processamento eficiente de dados garante que os modelos possam executar inferências em tempo real em diversos hardwares, desde poderosas GPUs na nuvem até dispositivos de ponta. As equipas que gerenciam esses fluxos de trabalho de dados complexos geralmente contam com Ultralytics para otimizar a anotação de conjuntos de dados, o treinamento de modelos e a implantação.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora