Tokenization
Explora cómo la tokenización transforma texto e imágenes sin procesar en datos listos para la IA. Aprende sobre los métodos de NLP y visión artificial utilizados por modelos como Ultralytics YOLO26.
La tokenización es el proceso algorítmico de dividir un flujo de datos sin procesar (como texto, imágenes o audio) en unidades más pequeñas y manejables llamadas tokens. Esta transformación actúa como un puente fundamental en el proceso de preprocesamiento de datos, convirtiendo la entrada no estructurada en un formato numérico que los sistemas de inteligencia artificial (IA) pueden interpretar. Los ordenadores no pueden entender de forma inherente el lenguaje humano ni las escenas visuales; requieren representaciones numéricas para realizar cálculos. Al segmentar los datos en tokens, los ingenieros permiten que las redes neuronales asignen estas unidades a embeddings, que son representaciones vectoriales que capturan el significado semántico. Sin este paso fundamental, los modelos de aprendizaje automático no serían capaces de identificar patrones, aprender el contexto ni procesar los vastos datasets necesarios para el entrenamiento moderno.
Link to this sectionTokenización vs. Token#
Aunque los términos se escuchan a menudo juntos en debates sobre aprendizaje profundo, resulta útil distinguir el método del resultado para comprender el flujo de trabajo.
- Tokenización es el proceso (el verbo). Se refiere al conjunto específico de reglas o algoritmos utilizados para dividir los datos. Para el texto, esto podría implicar el uso de librerías como NLTK o spaCy para determinar dónde termina una unidad y comienza otra.
- Token es el resultado (el sustantivo). Es la unidad individual generada por el proceso, como una palabra individual, una subpalabra, un carácter o un parche de píxeles.
Link to this sectionMétodos en diferentes dominios#
La estrategia de tokenización varía significativamente según la modalidad de los datos, lo que influye en cómo percibe el mundo un modelo base.
Link to this sectionTokenización de texto en NLP#
En el procesamiento de lenguaje natural (NLP), el objetivo es segmentar el texto preservando su significado. Los primeros métodos se basaban en técnicas simples como separar las palabras por espacios o eliminar palabras vacías. Sin embargo, los grandes modelos de lenguaje (LLM) modernos utilizan algoritmos de subpalabras más sofisticados, como Byte Pair Encoding (BPE) o WordPiece. Estos algoritmos combinan de forma iterativa los pares de caracteres más frecuentes, lo que permite al modelo manejar palabras raras dividiéndolas en subcomponentes familiares (por ejemplo, "smartphones" se convierte en "smart" + "phones"). Este enfoque equilibra el tamaño del vocabulario con la capacidad de representar un lenguaje complejo.
Link to this sectionTokenización visual en visión artificial#
Tradicionalmente, los modelos de visión artificial (CV) como las CNN procesaban píxeles utilizando ventanas deslizantes. La introducción del Vision Transformer (ViT) cambió este paradigma al aplicar la tokenización a las imágenes. La imagen se divide en parches de tamaño fijo (por ejemplo, 16x16 píxeles), que luego se aplanan y se proyectan linealmente. Estos "tokens visuales" permiten que el modelo utilice mecanismos de autoatención para aprender relaciones globales en toda la imagen, de forma similar a como un Transformer procesa una oración.
Link to this sectionAplicaciones en el mundo real#
La tokenización es el motor silencioso detrás de muchas aplicaciones de IA utilizadas en entornos de producción hoy en día.
-
Detección de objetos de vocabulario abierto: Arquitecturas avanzadas como YOLO-World emplean un enfoque de modelo multimodal. Cuando un usuario introduce un mensaje como "persona usando un sombrero rojo", el sistema tokeniza este texto y lo asigna al mismo espacio de características que los datos visuales. Esto permite el aprendizaje zero-shot, permitiendo al modelo detectar objetos para los que no fue entrenado explícitamente mediante la coincidencia de tokens de texto con características visuales.
-
Arte y diseño generativo: En la generación text-to-image, las indicaciones del usuario se tokenizan para guiar el proceso de difusión. El modelo utiliza estos tokens para condicionar la generación, asegurando que la imagen resultante se alinee con los conceptos semánticos (por ejemplo, "puesta de sol", "playa") extraídos durante la fase de tokenización.
Link to this sectionEjemplo en Python: Detección basada en tokens#
El siguiente ejemplo demuestra cómo el paquete ultralytics utiliza la tokenización de texto implícitamente dentro del flujo de trabajo de YOLO-World. Al definir clases personalizadas, el modelo tokeniza estas cadenas para buscar objetos específicos de forma dinámica.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()Link to this sectionImpacto en el rendimiento del modelo#
La elección de la estrategia de tokenización afecta directamente a la precisión y a la eficiencia computacional. Una tokenización ineficiente puede provocar errores de "fuera de vocabulario" en NLP o la pérdida de detalles precisos en el análisis de imágenes. Frameworks como PyTorch y TensorFlow ofrecen herramientas flexibles para optimizar este paso. A medida que las arquitecturas evolucionan (como el YOLO26, que es el estado del arte), un procesamiento de datos eficiente garantiza que los modelos puedan ejecutar inferencia en tiempo real en hardware diverso, desde potentes GPU en la nube hasta dispositivos edge. Los equipos que gestionan estos flujos de trabajo de datos complejos suelen confiar en la plataforma de Ultralytics para optimizar la anotación de datasets, el entrenamiento de modelos y el despliegue.






