Aprenda como os tokens, os blocos de construção dos modelos de IA, impulsionam o PNL, a visão computacional e tarefas como análise de sentimentos e detecção de objetos.
Na paisagem da inteligência artificial, um token serve como a unidade atómica fundamental de informação que um modelo de aprendizagem automática processa. Antes de uma rede neural possa analisar uma frase, um trecho de código código ou mesmo uma imagem, os dados brutos devem ser segmentados nessas partes discretas e gerenciáveis através de uma etapa crítica do pré-processamento de dados. Enquanto os humanos humanos percepcionam a linguagem como um fluxo de palavras ou as imagens como uma cena contínua, os algoritmos exigem que estes dados sejam em elementos padronizados para efetuar cálculos de forma eficiente.
Para compreender o funcionamento dos sistemas modernos de aprendizagem profunda modernos funcionam, é essencial distinguir entre a unidade de dados e o processo que a cria. Esta distinção é frequentemente clarificada comparando o "o quê" com o "como".
Uma vez que os dados são tokenizados, os tokens resultantes não são utilizados diretamente como cadeias de texto ou patches de imagem. Em vez disso, eles são mapeados para vectores numéricos conhecidos como embeddings. Estes vectores de alta dimensão captam o significado semântico e as relações entre os tokens, permitindo que quadros como o PyTorch realizem operações matemáticas sobre eles.
Em Processamento de linguagem natural (PNL), tokens são os inputs para grandes modelos linguísticos (LLMs) como a série GPT. Os modelos modernos modernos normalmente usam algoritmos de tokenização de subpalavras, como Codificação de Pares de Bytes (BPE). Este método equilibra eficiência e o tamanho do vocabulário, mantendo as palavras comuns como tokens únicos e dividindo as palavras raras em sílabas sílabas significativas.
O conceito de tokens revolucionou a análise de imagens através de arquitecturas como o Vision Transformer (ViT). Em vez de processamento de píxeis através de convolução, estes modelos dividem uma imagem numa grelha de manchas de tamanho fixo (por exemplo, 16x16 pixéis). Cada pedaço é achatado e tratado como um "símbolo visual", permitindo a utilização de poderosos mecanismos do mecanismos do Transformer, como a como a auto-atenção para compreender o contexto global numa uma imagem.
Os tokens são os blocos de construção de algumas das capacidades mais avançadas da IA atual.
O exemplo a seguir demonstra como o ultralytics O pacote utiliza tokens nos bastidores. Ao
fornecendo uma lista de classes de texto, o modelo tokeniza estas entradas para identificar objectos específicos numa imagem
dinamicamente.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
A compreensão dos tokens é fundamental para perceber como os modelos de base preenchem a lacuna entre dados humanos não estruturados e a compreensão computacional. classificação de imagens ou tarefas complexas.