Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Tokenização

Descubra o poder da tokenização em NLP e ML! Aprenda como dividir o texto em tokens aprimora tarefas de IA, como análise de sentimentos e geração de texto.

A tokenização é o processo fundamental de decompor um fluxo de dados, como texto bruto ou uma imagem, em unidades menores e discretas chamadas tokens. Este é um primeiro passo crítico no pipeline de pré-processamento de dados para quase todos os sistemas de Inteligência Artificial (IA). Ao converter dados não estruturados num formato padronizado, a tokenização permite que os modelos de aprendizagem automática interpretem, analisem e aprendam padrões de forma eficaz. Sem este passo, a maioria dos modelos seria incapaz de processar os vastos e variados dados que alimentam as aplicações modernas de IA.

Relevância e Aplicações no Mundo Real

A tokenização é crucial porque a maioria das arquiteturas de aprendizagem profunda requer entrada numérica em vez de texto ou pixels brutos. Ao converter dados em tokens discretos, podemos então mapear estes tokens para representações numéricas, como embeddings. Estes vetores numéricos capturam o significado semântico e as relações, permitindo que modelos construídos com frameworks como PyTorch ou TensorFlow aprendam com os dados. Este passo fundamental sustenta inúmeras aplicações de IA:

  1. Processamento de Linguagem Natural (PNL): A tokenização é fundamental para quase todas as tarefas de PNL.

    • Tradução automática: Serviços como o Google Translate tokenizam a frase de entrada no idioma de origem, processam esses tokens usando modelos complexos (geralmente baseados na arquitetura Transformer) e, em seguida, geram tokens no idioma de destino, que são finalmente montados na frase traduzida.
    • Análise de Sentimento: Para determinar se uma avaliação de cliente é positiva ou negativa, o texto é primeiro tokenizado. O modelo então analisa esses tokens para classificar o sentimento geral. Saiba mais sobre Análise de Sentimento. Técnicas como prompt tuning também dependem da manipulação de sequências de tokens. Para desenvolvedores, bibliotecas como spaCy e NLTK oferecem ferramentas poderosas de tokenização.
  2. Visão Computacional (CV): Embora tradicionalmente associado ao NLP, o conceito se estende à visão computacional.

Métodos Comuns de Tokenização

Existem diferentes estratégias para tokenizar dados, cada uma com suas próprias vantagens e desvantagens. A escolha do método pode impactar significativamente o desempenho do modelo.

  • Tokenização Baseada em Palavras: Este método divide o texto com base em espaços e pontuação. Embora simples e intuitivo, ele enfrenta dificuldades com grandes vocabulários e palavras "fora do vocabulário" (palavras não vistas durante o treinamento).
  • Tokenização Baseada em Caracteres: Este método divide o texto em caracteres individuais. Ele resolve o problema de palavras fora do vocabulário, mas pode resultar em sequências muito longas que perdem o significado semântico de alto nível, tornando mais difícil para os modelos aprenderem as relações entre as palavras.
  • Tokenização de Subpalavras: Esta é uma abordagem híbrida que se tornou o padrão para modelos modernos de PNL. Ela divide as palavras em subunidades menores e significativas. Palavras comuns permanecem como tokens únicos, enquanto palavras raras são divididas em múltiplos tokens de subpalavras. Este método lida eficientemente com palavras complexas e evita o problema de vocabulário desconhecido. Algoritmos populares incluem Byte Pair Encoding (BPE) e WordPiece, que são usados em modelos como BERT e GPT.

Tokenização vs. Tokens

É importante distinguir entre 'Tokenização' e um 'Token'.

  • Tokenização: Refere-se ao processo de quebrar dados em unidades menores. É uma etapa de pré-processamento que é fundamental para como os modelos de linguagem funcionam.
  • Token: Refere-se ao resultado do processo de tokenização – a unidade individual (palavra, subpalavra, caractere ou patch de imagem) que o modelo processa.

A compreensão da tokenização é fundamental para entender como os modelos de IA interpretam e aprendem com diversos tipos de dados. O gerenciamento de conjuntos de dados e o treinamento de modelos geralmente envolvem plataformas como o Ultralytics HUB, que ajudam a agilizar os fluxos de trabalho de pré-processamento de dados e treinamento de modelos. À medida que a IA evolui, os métodos de tokenização continuam a se adaptar, desempenhando um papel fundamental na construção de modelos mais sofisticados para tarefas que vão desde a geração de texto até a compreensão visual complexa em campos como veículos autônomos e análise de imagens médicas.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência