Descubra o poder da tokenização em NLP e ML! Aprenda como dividir o texto em tokens aprimora tarefas de IA, como análise de sentimentos e geração de texto.
A tokenização é o processo fundamental de conversão de um fluxo de dados brutos - como texto, código ou imagens - em unidades discretas mais pequenas, conhecidas como tokens, unidades discretas mais pequenas, conhecidas como tokens. Esta transformação actua como uma ponte crítica no de pré-processamento de dados, traduzindo informação humana não estruturada para um formato numérico que os sistemas de sistemas de Inteligência Artificial (IA) podem interpretar. Ao dividir dados complexos em partes gerenciáveis, a tokenização permite que modelos de aprendizagem automática para identificar padrões, aprender relações semânticas e efetuar tarefas de inferência sofisticadas. Sem este passo inicial, as redes neurais que alimentam a tecnologia moderna seriam incapazes de processar os vastos conjuntos de dados necessários para a formação.
Embora os termos sejam frequentemente utilizados em estreita proximidade, é importante distinguir o método do resultado.
A aplicação da tokenização varia significativamente em função do tipo de dados que estão a ser processados, embora o objetivo final de gerar embeddings - representações vectoriais representações vectoriais dos dados - continua a ser o mesmo.
Em Processamento de linguagem natural (PNL), o processo envolve a divisão de frases em palavras, subpalavras ou caracteres. Os primeiros métodos simplesmente dividiam o texto por espaços em branco, mas os modernos modelos de linguagem de grande porte (LLMs) utilizam algoritmos avançados como a codificação de pares de bytes (BPE) para para tratar palavras raras de forma eficiente. Isto permite que modelos como o GPT-4 processem vocabulário complexo sem precisar de um dicionário infinito.
Tradicionalmente, a Visão por Computador (CV) funcionava com matrizes de pixéis. No entanto, o aparecimento do Transformador de Visão (ViT) introduziu o conceito de divisão de uma imagem em manchas de tamanho fixo (por exemplo, 16x16 pixéis). Estas manchas são achatadas e tratadas como e tratadas como símbolos visuais, permitindo que o modelo que o modelo use a auto-atenção para ponderar a importância de diferentes regiões da imagem, de forma semelhante à forma como uma frase é processada.
A tokenização não é apenas um conceito teórico; está na base de muitas das aplicações de IA utilizadas diariamente.
O exemplo seguinte demonstra como ultralytics utiliza a tokenização implícita dentro do
Modelo YOLO fluxo de trabalho. O
.set_classes() tokeniza a lista de texto para orientar dinamicamente o foco de deteção do modelo.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
A escolha da estratégia de tokenização tem um impacto direto na a precisão e a eficiência computacional. Uma tokenização ineficaz pode levar a erros "fora do vocabulário" em PNL ou à perda de pormenores finos na segmentação de imagens. Estruturas como PyTorch e TensorFlow fornecem ferramentas ferramentas para otimizar este passo. À medida que as arquitecturas evoluem - como as mais recentes YOLO11-o processamento eficiente de dados garante que os modelos podem executar inferência em tempo real em hardware diverso, desde poderosas GPUs na nuvem a dispositivos de ponta.