Descubra o poder da tokenização em NLP e ML! Aprenda como dividir o texto em tokens aprimora tarefas de IA, como análise de sentimentos e geração de texto.
A tokenização é o processo algorítmico de dividir um fluxo de dados brutos — como texto, imagens ou áudio — em unidades menores e gerenciáveis chamadas tokens. Essa transformação atua como uma ponte crítica no pipeline de pré-processamento de dados, convertendo entradas não estruturadas em um formato numérico que os sistemas de inteligência artificial (IA) podem interpretar. Os computadores não conseguem compreender inerentemente a linguagem humana ou cenas visuais; eles requerem representações numéricas para realizar cálculos. Ao segmentar os dados em tokens, os engenheiros permitem que as redes neurais mapeiem essas unidades para embeddings— representações vetoriais que capturam o significado semântico . Sem essa etapa fundamental, os modelos de aprendizado de máquina seriam incapazes de identificar padrões, aprender o contexto ou processar os vastos conjuntos de dados necessários para o treinamento moderno.
Embora os termos sejam frequentemente ouvidos juntos em discussões sobre aprendizagem profunda, é útil distinguir o método do resultado para compreender o fluxo de trabalho.
A estratégia para tokenização varia significativamente dependendo da modalidade dos dados, influenciando a forma como um modelo base percebe o mundo.
No Processamento de Linguagem Natural (NLP), o objetivo é segment preservando o significado. Os métodos iniciais baseavam-se em técnicas simples, como separar palavras por espaços ou remover palavras irrelevantes. No entanto, os modernos Modelos de Linguagem Grande (LLMs) utilizam algoritmos de subpalavras mais sofisticados, como Byte Pair Encoding (BPE) ou WordPiece. Esses algoritmos mesclam iterativamente os pares de caracteres mais frequentes, permitindo que o modelo lide com palavras raras, dividindo-as em subcomponentes familiares (por exemplo, «smartphones» torna-se «smart» + «phones»). Essa abordagem equilibra o tamanho do vocabulário com a capacidade de representar uma linguagem complexa.
Tradicionalmente, modelos de visão computacional (CV), como CNNs, processavam pixels usando janelas deslizantes. A introdução do Vision Transformer (ViT) mudou esse paradigma ao aplicar tokenização às imagens. A imagem é dividida em patches de tamanho fixo (por exemplo, 16x16 pixels), que são então achatados e projetados linearmente. Esses "tokens visuais" permitem que o modelo utilize mecanismos de autoatenção para aprender relações globais em toda a imagem, semelhante à forma como um Transformer processa uma frase.
A tokenização é o motor silencioso por trás de muitas aplicações de IA utilizadas atualmente em ambientes de produção.
O exemplo a seguir demonstra como o ultralytics O pacote utiliza tokenização de texto implicitamente
no fluxo de trabalho YOLO. Ao definir classes personalizadas, o modelo tokeniza essas cadeias de caracteres para procurar objetos específicos
dinamicamente.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
A escolha da estratégia de tokenização tem impacto direto na precisão e na eficiência computacional. Uma tokenização ineficiente pode levar a erros de «vocabulário insuficiente» em NLP ou à perda de detalhes minuciosos na análise de imagens . Estruturas como PyTorch e TensorFlow fornecem ferramentas flexíveis para otimizar esta etapa. À medida que as arquiteturas evoluem — como o YOLO26de última geração — o processamento eficiente de dados garante que os modelos possam executar inferências em tempo real em diversos hardwares, desde poderosas GPUs na nuvem até dispositivos de ponta. As equipas que gerenciam esses fluxos de trabalho de dados complexos geralmente contam com Ultralytics para otimizar a anotação de conjuntos de dados, o treinamento de modelos e a implantação.