Glossário

Tokenização

Explore como a tokenização transforma texto bruto e imagens em dados prontos para IA. Saiba mais sobre os métodos de NLP e visão computacional usados por modelos como Ultralytics .

A tokenização é o processo algorítmico de dividir um fluxo de dados brutos — como texto, imagens ou áudio — em unidades menores e gerenciáveis chamadas tokens. Essa transformação atua como uma ponte crítica no pipeline de pré-processamento de dados, convertendo entradas não estruturadas em um formato numérico que os sistemas de inteligência artificial (IA) podem interpretar. Os computadores não conseguem compreender inerentemente a linguagem humana ou cenas visuais; eles requerem representações numéricas para realizar cálculos. Ao segmentar os dados em tokens, os engenheiros permitem que as redes neurais mapeiem essas unidades para embeddings— representações vetoriais que capturam o significado semântico . Sem essa etapa fundamental, os modelos de aprendizado de máquina seriam incapazes de identificar padrões, aprender o contexto ou processar os vastos conjuntos de dados necessários para o treinamento moderno.

Tokenização vs. Token

Embora os termos sejam frequentemente ouvidos juntos em discussões sobre aprendizagem profunda, é útil distinguir o método do resultado para compreender o fluxo de trabalho.

Tokenização é o processo (o verbo). Refere-se ao conjunto específico de regras ou algoritmos usados para dividir os dados. Para texto, isso pode envolver o uso de bibliotecas como NLTK ou spaCy para determinar onde uma unidade termina e outra começa.
Token é a saída (o substantivo). É a unidade individual gerada pelo processo, como uma única palavra, uma subpalavra, um caractere ou um patch de pixels.

Métodos em diferentes domínios

A estratégia para tokenização varia significativamente dependendo da modalidade dos dados, influenciando a forma como um modelo base percebe o mundo.

Tokenização de texto em PNL

No Processamento de Linguagem Natural (NLP), o objetivo é segment preservando o significado. Os métodos iniciais baseavam-se em técnicas simples, como separar palavras por espaços ou remover palavras irrelevantes. No entanto, os modernos Modelos de Linguagem Grande (LLMs) utilizam algoritmos de subpalavras mais sofisticados, como Byte Pair Encoding (BPE) ou WordPiece. Esses algoritmos mesclam iterativamente os pares de caracteres mais frequentes, permitindo que o modelo lide com palavras raras, dividindo-as em subcomponentes familiares (por exemplo, «smartphones» torna-se «smart» + «phones»). Essa abordagem equilibra o tamanho do vocabulário com a capacidade de representar uma linguagem complexa.

Tokenização visual em visão computacional

Tradicionalmente, modelos de visão computacional (CV), como CNNs, processavam pixels usando janelas deslizantes. A introdução do Vision Transformer (ViT) mudou esse paradigma ao aplicar tokenização às imagens. A imagem é dividida em patches de tamanho fixo (por exemplo, 16x16 pixels), que são então achatados e projetados linearmente. Esses "tokens visuais" permitem que o modelo utilize mecanismos de autoatenção para aprender relações globais em toda a imagem, semelhante à forma como um Transformer processa uma frase.

Aplicações no Mundo Real

A tokenização é o motor silencioso por trás de muitas aplicações de IA utilizadas atualmente em ambientes de produção.

Detecção de objetos com vocabulário aberto: arquiteturas avançadas como o YOLO empregam uma abordagem de modelo multimodal. Quando um utilizador insere um prompt como "pessoa usando um chapéu vermelho", o sistema tokeniza esse texto e o mapeia para o mesmo espaço de recursos que os dados visuais. Isso permite o aprendizado zero-shot, permitindo que o modelo detect nos quais não foi explicitamente treinado, combinando tokens de texto com recursos visuais.
Arte e design generativos: Na geração de texto para imagem, as solicitações do utilizador são tokenizadas para orientar o processo de difusão. O modelo usa esses tokens para condicionar a geração, garantindo que a imagem resultante se alinhe com os conceitos semânticos (por exemplo, «pôr do sol», «praia») extraídos durante a fase de tokenização.

Python : Detecção baseada em tokens

O exemplo a seguir demonstra como o ultralytics O pacote utiliza tokenização de texto implicitamente no fluxo de trabalho YOLO. Ao definir classes personalizadas, o modelo tokeniza essas cadeias de caracteres para procurar objetos específicos dinamicamente.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Impacto no desempenho do modelo

A escolha da estratégia de tokenização tem impacto direto na precisão e na eficiência computacional. Uma tokenização ineficiente pode levar a erros de «vocabulário insuficiente» em NLP ou à perda de detalhes minuciosos na análise de imagens . Estruturas como PyTorch e TensorFlow fornecem ferramentas flexíveis para otimizar esta etapa. À medida que as arquiteturas evoluem — como o YOLO26de última geração — o processamento eficiente de dados garante que os modelos possam executar inferências em tempo real em diversos hardwares, desde poderosas GPUs na nuvem até dispositivos de ponta. As equipas que gerenciam esses fluxos de trabalho de dados complexos geralmente contam com Ultralytics para otimizar a anotação de conjuntos de dados, o treinamento de modelos e a implantação.

Tokenização

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Tokenização vs. Token

Métodos em diferentes domínios

Tokenização de texto em PNL

Tokenização visual em visão computacional

Aplicações no Mundo Real

Python : Detecção baseada em tokens

Impacto no desempenho do modelo

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

O que é a estimativa de profundidade monocular? Uma visão geral

Uma análise sobre o usoYOLO Ultralytics para deteção de ameaças por IA

Junte-se à comunidade Ultralytics