Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Tokenización

Descubra cómo la tokenización transforma el texto y las imágenes sin procesar en datos listos para la IA. Conozca los métodos de procesamiento del lenguaje natural (NLP) y visión artificial utilizados por modelos como Ultralytics .

La tokenización es el proceso algorítmico de descomponer un flujo de datos sin procesar, como texto, imágenes o audio, en unidades más pequeñas y manejables llamadas tokens. Esta transformación actúa como un puente crítico en el proceso de preprocesamiento de datos, convirtiendo la entrada no estructurada en un formato numérico que los sistemas de inteligencia artificial (IA) pueden interpretar. Los ordenadores no pueden comprender de forma inherente el lenguaje humano o las escenas visuales; necesitan representaciones numéricas para realizar cálculos. Al segmentar los datos en tokens, los ingenieros permiten que las redes neuronales asignen estas unidades a incrustaciones, representaciones vectoriales que capturan el significado semántico . Sin este paso fundamental, los modelos de aprendizaje automático serían incapaces de identificar patrones, aprender el contexto o procesar los vastos conjuntos de datos necesarios para el entrenamiento moderno.

Tokenización vs. Token

Aunque los términos suelen escucharse juntos en los debates sobre el aprendizaje profundo, es útil distinguir el método del resultado para comprender el flujo de trabajo.

  • La tokenización es el proceso (el verbo). Se refiere al conjunto específico de reglas o algoritmos utilizados para dividir los datos. En el caso del texto, esto puede implicar el uso de bibliotecas como NLTK o spaCy para determinar dónde termina una unidad y comienza otra.
  • Token es el resultado (el sustantivo). Es la unidad individual generada por el proceso, como una sola palabra, una subpalabra, un carácter o un fragmento de píxeles.

Métodos en diferentes ámbitos

La estrategia para la tokenización varía significativamente dependiendo de la modalidad de los datos, lo que influye en cómo un modelo base percibe el mundo.

Tokenización de textos en PNL

En el procesamiento del lenguaje natural (NLP), el objetivo es segment conservando el significado. Los primeros métodos se basaban en técnicas simples como separar las palabras por espacios o eliminar las palabras vacías. Sin embargo, los modernos modelos de lenguaje grandes (LLM) utilizan algoritmos de subpalabras más sofisticados, como Byte Pair Encoding (BPE) o WordPiece. Estos algoritmos fusionan iterativamente los pares de caracteres más frecuentes, lo que permite al modelo manejar palabras poco comunes dividiéndolas en subcomponentes familiares (por ejemplo, «smartphones» se convierte en «smart» + «phones»). Este enfoque equilibra el tamaño del vocabulario con la capacidad de representar un lenguaje complejo.

Tokenización visual en visión por ordenador

Tradicionalmente, los modelos de visión artificial (CV) como las CNN procesaban los píxeles utilizando ventanas deslizantes. La introducción del Vision Transformer (ViT) cambió este paradigma al aplicar la tokenización a las imágenes. La imagen se divide en fragmentos de tamaño fijo (por ejemplo, 16x16 píxeles), que luego se aplanan y se proyectan linealmente. Estos «tokens visuales» permiten al modelo utilizar mecanismos de autoatención para aprender relaciones globales en toda la imagen, de forma similar a cómo un Transformer procesa una frase.

Aplicaciones en el mundo real

La tokenización es el motor silencioso que impulsa muchas de las aplicaciones de IA que se utilizan actualmente en entornos de producción.

  1. Detección de objetos con vocabulario abierto: Las arquitecturas avanzadas como YOLO emplean un enfoque de modelo multimodal. Cuando un usuario introduce una indicación como «persona con sombrero rojo», el sistema tokeniza este texto y lo asigna al mismo espacio de características que los datos visuales. Esto permite el aprendizaje sin disparos, lo que permite al modelo detect para los que no ha sido entrenado explícitamente, haciendo coincidir los tokens de texto con las características visuales.
  2. Arte y diseño generativos: En la generación de texto a imagen, las indicaciones del usuario se tokenizan para guiar el proceso de difusión. El modelo utiliza estos tokens para condicionar la generación, asegurando que la imagen resultante se alinee con los conceptos semánticos (por ejemplo, «puesta de sol», «playa») extraídos durante la fase de tokenización.

Python : Detección basada en tokens

El siguiente ejemplo muestra cómo se utiliza la función ultralytics El paquete utiliza la tokenización de texto de forma implícita dentro del flujo de trabajo YOLO. Al definir clases personalizadas, el modelo tokeniza estas cadenas para buscar objetos específicos de forma dinámica.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Impacto en el rendimiento del modelo

La elección de la estrategia de tokenización afecta directamente a la precisión y la eficiencia computacional. Una tokenización ineficaz puede provocar errores de «fuera de vocabulario» en el PLN o la pérdida de detalles precisos en el análisis de imágenes . Marcos como PyTorch y TensorFlow proporcionan herramientas flexibles para optimizar este paso. A medida que evolucionan las arquitecturas , como la vanguardista YOLO26, el procesamiento eficiente de los datos garantiza que los modelos puedan ejecutar inferencias en tiempo real en diversos equipos, desde potentes GPU en la nube hasta dispositivos periféricos. Los equipos que gestionan estos complejos flujos de trabajo de datos suelen confiar en Ultralytics para optimizar la anotación de conjuntos de datos, el entrenamiento de modelos y la implementación.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora