Token
Aprende como tokens servem como unidades fundamentais de informação em IA. Explora o seu papel em NLP, visão computacional, e deteção de vocabulário aberto com o YOLO26.
Na arquitetura sofisticada da inteligência artificial moderna, um token representa a unidade fundamental e atômica de informação que um modelo processa. Antes que um algoritmo possa interpretar uma frase, analisar um script de software ou reconhecer objetos em uma imagem, os dados brutos de entrada devem ser divididos nesses elementos discretos e padronizados. Essa segmentação é um passo fundamental no pré-processamento de dados, transformando entradas não estruturadas em um formato numérico que redes neurais podem calcular eficientemente. Embora os humanos percebam a linguagem como um fluxo contínuo de pensamentos ou imagens como cenas visuais perfeitas, os modelos computacionais precisam desses blocos de construção granulares para realizar operações como reconhecimento de padrões e análise semântica.
Link to this sectionToken vs. Tokenização#
Para compreender a mecânica do aprendizado de máquina, é essencial distinguir entre a unidade de dados e o processo usado para criá-la. Essa diferenciação evita confusão ao projetar pipelines de dados e preparar material de treinamento na Ultralytics Platform.
- Tokenização: Este é o processo algorítmico (o verbo) de dividir dados brutos em partes. Para texto, isso pode envolver o uso de bibliotecas como o Natural Language Toolkit (NLTK) para determinar onde uma unidade termina e outra começa.
- Token: Este é o resultado produzido (o substantivo). É o pedaço real de dados — como uma palavra, um subconjunto de palavras ou um patch de imagem — que é eventualmente mapeado para um vetor numérico conhecido como embedding.
Link to this sectionTokens em Diferentes Áreas de IA#
A natureza de um token varia significativamente dependendo da modalidade dos dados sendo processados, particularmente entre domínios textuais e visuais.
Link to this sectionTokens de Texto em NLP#
No campo do Processamento de Linguagem Natural (NLP), os tokens são as entradas para Grandes Modelos de Linguagem (LLMs). Abordagens iniciais mapeavam estritamente para palavras inteiras, mas arquiteturas modernas utilizam algoritmos de subpalavras como Byte Pair Encoding (BPE). Esse método permite que os modelos lidem com palavras raras dividindo-as em sílabas significativas, equilibrando o tamanho do vocabulário com a cobertura semântica. Por exemplo, a palavra "unhappiness" pode ser tokenizada em "un", "happi" e "ness".
Link to this sectionTokens Visuais em Visão Computacional#
O conceito de tokenização expandiu-se para a visão computacional com o surgimento do Vision Transformer (ViT). Diferente de redes convolucionais tradicionais que processam pixels em janelas deslizantes, os Transformers dividem uma imagem em uma grade de patches de tamanho fixo (por exemplo, 16x16 pixels). Cada patch é achatado e tratado como um token visual distinto. Essa abordagem permite que o modelo use mecanismos de autoatenção para entender a relação entre partes distantes de uma imagem, de forma semelhante a como o Google Research aplicou originalmente transformers ao texto.
Link to this sectionAplicações no Mundo Real#
Os tokens atuam como a ponte entre dados humanos e inteligência de máquina em inúmeras aplicações.
-
Detecção de Objetos de Vocabulário Aberto: Modelos avançados como YOLO-World usam uma abordagem multimodal onde tokens de texto interagem com características visuais. Você pode inserir prompts de texto personalizados (por exemplo, "capacete azul"), que o modelo tokeniza e compara com objetos na imagem. Isso possibilita o aprendizado zero-shot, permitindo a detecção de objetos nos quais o modelo não foi explicitamente treinado.
-
IA Generativa: Em sistemas de geração de texto como chatbots, a IA opera prevendo a probabilidade do próximo token em uma sequência. Ao selecionar iterativamente o token subsequente mais provável, o sistema constrói frases e parágrafos coerentes, alimentando ferramentas que variam desde suporte ao cliente automatizado até assistentes virtuais.
Link to this sectionExemplo em Python: Usando Tokens de Texto para Detecção#
O snippet de código a seguir demonstra como o pacote ultralytics usa tokens de texto para orientar a detecção de objetos. Embora o YOLO26 de última geração seja recomendado para inferência de alta velocidade com classes fixas, a arquitetura YOLO-World permite de forma única que você defina classes como tokens de texto em tempo de execução.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()Entender tokens é fundamental para navegar no cenário da IA generativa e análise avançada. Seja permitindo que um chatbot converse fluentemente ou ajudando um sistema de visão a distinguir entre classes de objetos sutis, os tokens permanecem a moeda essencial da inteligência de máquina usada por frameworks como PyTorch e TensorFlow.






