Descubra cómo la tokenización transforma el texto y las imágenes sin procesar en datos listos para la IA. Conozca los métodos de procesamiento del lenguaje natural (NLP) y visión artificial utilizados por modelos como Ultralytics .
La tokenización es el proceso algorítmico de descomponer un flujo de datos sin procesar, como texto, imágenes o audio, en unidades más pequeñas y manejables llamadas tokens. Esta transformación actúa como un puente crítico en el proceso de preprocesamiento de datos, convirtiendo la entrada no estructurada en un formato numérico que los sistemas de inteligencia artificial (IA) pueden interpretar. Los ordenadores no pueden comprender de forma inherente el lenguaje humano o las escenas visuales; necesitan representaciones numéricas para realizar cálculos. Al segmentar los datos en tokens, los ingenieros permiten que las redes neuronales asignen estas unidades a incrustaciones, representaciones vectoriales que capturan el significado semántico . Sin este paso fundamental, los modelos de aprendizaje automático serían incapaces de identificar patrones, aprender el contexto o procesar los vastos conjuntos de datos necesarios para el entrenamiento moderno.
Aunque los términos suelen escucharse juntos en los debates sobre el aprendizaje profundo, es útil distinguir el método del resultado para comprender el flujo de trabajo.
La estrategia para la tokenización varía significativamente dependiendo de la modalidad de los datos, lo que influye en cómo un modelo base percibe el mundo.
En el procesamiento del lenguaje natural (NLP), el objetivo es segment conservando el significado. Los primeros métodos se basaban en técnicas simples como separar las palabras por espacios o eliminar las palabras vacías. Sin embargo, los modernos modelos de lenguaje grandes (LLM) utilizan algoritmos de subpalabras más sofisticados, como Byte Pair Encoding (BPE) o WordPiece. Estos algoritmos fusionan iterativamente los pares de caracteres más frecuentes, lo que permite al modelo manejar palabras poco comunes dividiéndolas en subcomponentes familiares (por ejemplo, «smartphones» se convierte en «smart» + «phones»). Este enfoque equilibra el tamaño del vocabulario con la capacidad de representar un lenguaje complejo.
Tradicionalmente, los modelos de visión artificial (CV) como las CNN procesaban los píxeles utilizando ventanas deslizantes. La introducción del Vision Transformer (ViT) cambió este paradigma al aplicar la tokenización a las imágenes. La imagen se divide en fragmentos de tamaño fijo (por ejemplo, 16x16 píxeles), que luego se aplanan y se proyectan linealmente. Estos «tokens visuales» permiten al modelo utilizar mecanismos de autoatención para aprender relaciones globales en toda la imagen, de forma similar a cómo un Transformer procesa una frase.
La tokenización es el motor silencioso que impulsa muchas de las aplicaciones de IA que se utilizan actualmente en entornos de producción.
El siguiente ejemplo muestra cómo se utiliza la función ultralytics El paquete utiliza la tokenización de texto de forma implícita
dentro del flujo de trabajo YOLO. Al definir clases personalizadas, el modelo tokeniza estas cadenas para buscar objetos específicos
de forma dinámica.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
La elección de la estrategia de tokenización afecta directamente a la precisión y la eficiencia computacional. Una tokenización ineficaz puede provocar errores de «fuera de vocabulario» en el PLN o la pérdida de detalles precisos en el análisis de imágenes . Marcos como PyTorch y TensorFlow proporcionan herramientas flexibles para optimizar este paso. A medida que evolucionan las arquitecturas , como la vanguardista YOLO26, el procesamiento eficiente de los datos garantiza que los modelos puedan ejecutar inferencias en tiempo real en diversos equipos, desde potentes GPU en la nube hasta dispositivos periféricos. Los equipos que gestionan estos complejos flujos de trabajo de datos suelen confiar en Ultralytics para optimizar la anotación de conjuntos de datos, el entrenamiento de modelos y la implementación.