Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Tokenização

Descubra o poder da tokenização em NLP e ML! Aprenda como dividir o texto em tokens aprimora tarefas de IA, como análise de sentimentos e geração de texto.

A tokenização é o processo fundamental de conversão de um fluxo de dados brutos - como texto, código ou imagens - em unidades discretas mais pequenas, conhecidas como tokens, unidades discretas mais pequenas, conhecidas como tokens. Esta transformação actua como uma ponte crítica no de pré-processamento de dados, traduzindo informação humana não estruturada para um formato numérico que os sistemas de sistemas de Inteligência Artificial (IA) podem interpretar. Ao dividir dados complexos em partes gerenciáveis, a tokenização permite que modelos de aprendizagem automática para identificar padrões, aprender relações semânticas e efetuar tarefas de inferência sofisticadas. Sem este passo inicial, as redes neurais que alimentam a tecnologia moderna seriam incapazes de processar os vastos conjuntos de dados necessários para a formação.

Tokenização vs. Token

Embora os termos sejam frequentemente utilizados em estreita proximidade, é importante distinguir o método do resultado.

  • A tokenização é a ação ou algoritmo aplicado aos dados. Envolve regras específicas para dividir cadeias de caracteres ou segmentar imagens. Ferramentas como o spaCy ou o NLTK facilitam este processo para texto.
  • Token é a unidade de saída gerada pelo processo. Para mais pormenores sobre a natureza destas unidades, consulte a página do glossário para Token.

Como funciona a Tokenização na IA

A aplicação da tokenização varia significativamente em função do tipo de dados que estão a ser processados, embora o objetivo final de gerar embeddings - representações vectoriais representações vectoriais dos dados - continua a ser o mesmo.

Tokenização de texto em PNL

Em Processamento de linguagem natural (PNL), o processo envolve a divisão de frases em palavras, subpalavras ou caracteres. Os primeiros métodos simplesmente dividiam o texto por espaços em branco, mas os modernos modelos de linguagem de grande porte (LLMs) utilizam algoritmos avançados como a codificação de pares de bytes (BPE) para para tratar palavras raras de forma eficiente. Isto permite que modelos como o GPT-4 processem vocabulário complexo sem precisar de um dicionário infinito.

Tokenização visual em visão computacional

Tradicionalmente, a Visão por Computador (CV) funcionava com matrizes de pixéis. No entanto, o aparecimento do Transformador de Visão (ViT) introduziu o conceito de divisão de uma imagem em manchas de tamanho fixo (por exemplo, 16x16 pixéis). Estas manchas são achatadas e tratadas como e tratadas como símbolos visuais, permitindo que o modelo que o modelo use a auto-atenção para ponderar a importância de diferentes regiões da imagem, de forma semelhante à forma como uma frase é processada.

Aplicações no Mundo Real

A tokenização não é apenas um conceito teórico; está na base de muitas das aplicações de IA utilizadas diariamente.

  1. Deteção multimodal: Modelos avançados como o YOLO fazem a ponte entre o texto e a visão. Ao tokenizar a entrada do utilizador (por exemplo, "carro vermelho") e compará-la com caraterísticas visuais, estes modelos realizam deteção de objectos de vocabulário aberto sem necessidade de sem precisar de ser explicitamente treinados de novo para novas classes.
  2. Tradução de línguas: Serviços como o Google Translate baseiam-se em dividir o texto de entrada em tokens, traduzindo-os traduzindo-os através de um modelo sequência-a-sequência, e remontar os tokens de saída para a língua de destino.
  3. Arte generativa: Modelos capazes de geração de texto para imagem, tais como Difusão Estável, tokenizam as instruções de texto para guiar o processo de redução de ruído, criando imagens que se alinham com o significado semântico dos tokens de entrada.

Exemplo: Tokenização no YOLO

O exemplo seguinte demonstra como ultralytics utiliza a tokenização implícita dentro do Modelo YOLO fluxo de trabalho. O .set_classes() tokeniza a lista de texto para orientar dinamicamente o foco de deteção do modelo.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Importância no desempenho do modelo

A escolha da estratégia de tokenização tem um impacto direto na a precisão e a eficiência computacional. Uma tokenização ineficaz pode levar a erros "fora do vocabulário" em PNL ou à perda de pormenores finos na segmentação de imagens. Estruturas como PyTorch e TensorFlow fornecem ferramentas ferramentas para otimizar este passo. À medida que as arquitecturas evoluem - como as mais recentes YOLO11-o processamento eficiente de dados garante que os modelos podem executar inferência em tempo real em hardware diverso, desde poderosas GPUs na nuvem a dispositivos de ponta.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora