Token
Aprende cómo los tokens sirven como unidades fundamentales de información en la IA. Explora su papel en el NLP, la visión artificial y la detección de vocabulario abierto con YOLO26.
En la sofisticada arquitectura de la inteligencia artificial moderna, un token representa la unidad fundamental y atómica de información que procesa un modelo. Antes de que un algoritmo pueda interpretar una frase, analizar un script de software o reconocer objetos en una imagen, los datos brutos de entrada deben descomponerse en estos elementos discretos y estandarizados. Esta segmentación es un paso fundamental en el preprocesamiento de datos, transformando entradas no estructuradas en un formato numérico que las redes neuronales pueden procesar de manera eficiente. Aunque los humanos perciben el lenguaje como un flujo continuo de pensamientos o las imágenes como escenas visuales fluidas, los modelos computacionales requieren estos bloques de construcción granulares para realizar operaciones como el reconocimiento de patrones y el análisis semántico.
Link to this sectionToken frente a tokenización#
Para comprender la mecánica del aprendizaje automático, es esencial distinguir entre la unidad de datos y el proceso utilizado para crearla. Esta diferenciación evita confusiones al diseñar pipelines de datos y preparar material de entrenamiento en la plataforma de Ultralytics.
- Tokenización: Este es el proceso algorítmico (el verbo) de dividir los datos brutos en piezas. Para el texto, esto podría implicar el uso de bibliotecas como el Natural Language Toolkit (NLTK) para determinar dónde termina una unidad y comienza otra.
- Token: Este es el resultado obtenido (el sustantivo). Es el fragmento real de datos —como una palabra, una subpalabra o un parche de imagen— que finalmente se asigna a un vector numérico conocido como embedding.
Link to this sectionTokens en diferentes dominios de IA#
La naturaleza de un token varía significativamente según la modalidad de los datos procesados, particularmente entre los dominios textual y visual.
Link to this sectionTokens de texto en NLP#
En el campo del Procesamiento del Lenguaje Natural (NLP), los tokens son las entradas para los Modelos de Lenguaje Extensos (LLM). Los primeros enfoques se asignaban estrictamente a palabras completas, pero las arquitecturas modernas utilizan algoritmos de subpalabras como la Codificación de Pares de Bytes (BPE). Este método permite a los modelos manejar palabras poco comunes dividiéndolas en sílabas significativas, equilibrando el tamaño del vocabulario con la cobertura semántica. Por ejemplo, la palabra "unhappiness" podría tokenizarse en "un", "happi" y "ness".
Link to this sectionTokens visuales en visión artificial#
El concepto de tokenización se ha expandido a la visión artificial con la llegada del Vision Transformer (ViT). A diferencia de las redes convolucionales tradicionales que procesan píxeles en ventanas deslizantes, los Transformers dividen una imagen en una cuadrícula de parches de tamaño fijo (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un token visual distinto. Este enfoque permite al modelo utilizar mecanismos de autoatención para comprender la relación entre partes distantes de una imagen, similar a como Google Research aplicó originalmente los transformers al texto.
Link to this sectionAplicaciones en el mundo real#
Los tokens actúan como puente entre los datos humanos y la inteligencia de las máquinas en innumerables aplicaciones.
-
Detección de objetos de vocabulario abierto: Modelos avanzados como YOLO-World utilizan un enfoque multimodal donde los tokens de texto interactúan con las características visuales. Un usuario puede introducir prompts de texto personalizados (por ejemplo, "casco azul"), que el modelo tokeniza y compara con objetos en la imagen. Esto permite el aprendizaje zero-shot, facilitando la detección de objetos con los que el modelo no ha sido entrenado explícitamente.
-
IA generativa: En sistemas de generación de texto como los chatbots, la IA opera prediciendo la probabilidad del siguiente token en una secuencia. Al seleccionar iterativamente el token subsiguiente más probable, el sistema construye frases y párrafos coherentes, impulsando herramientas que van desde la atención al cliente automatizada hasta los asistentes virtuales.
Link to this sectionEjemplo en Python: Uso de tokens de texto para detección#
El siguiente fragmento de código demuestra cómo el paquete ultralytics utiliza tokens de texto para guiar la detección de objetos. Aunque se recomienda el YOLO26 de vanguardia para inferencia de alta velocidad y clases fijas, la arquitectura de YOLO-World permite de forma única que los usuarios definan clases como tokens de texto en tiempo de ejecución.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()Comprender los tokens es fundamental para navegar por el panorama de la IA generativa y el análisis avanzado. Ya sea permitiendo que un chatbot converse con fluidez o ayudando a un sistema de visión a distinguir entre clases de objetos sutiles, los tokens siguen siendo la moneda esencial de la inteligencia artificial utilizada por frameworks como PyTorch y TensorFlow.






