Glosario

Tokenización

¡Descubra el poder de la tokenización en PNL y ML! Aprenda cómo la división del texto en tokens mejora las tareas de IA como el análisis de sentimientos y la generación de texto.

La tokenización es el proceso fundamental de descomponer un flujo de datos, como texto sin procesar o una imagen, en unidades discretas más pequeñas llamadas tokens. Este es un primer paso crítico en el pipeline de preprocesamiento de datos para casi todos los sistemas de Inteligencia Artificial (IA). Al convertir los datos no estructurados en un formato estandarizado, la tokenización permite a los modelos de aprendizaje automático interpretar, analizar y aprender patrones de forma eficaz. Sin este paso, la mayoría de los modelos no podrían procesar los vastos y variados datos que impulsan las aplicaciones modernas de IA.

Relevancia y aplicaciones en el mundo real

La tokenización es crucial porque la mayoría de las arquitecturas de aprendizaje profundo requieren entradas numéricas en lugar de texto o píxeles sin procesar. Al convertir los datos en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como embeddings. Estos vectores numéricos capturan el significado semántico y las relaciones, lo que permite a los modelos construidos con frameworks como PyTorch o TensorFlow aprender de los datos. Este paso fundamental sustenta numerosas aplicaciones de IA:

Procesamiento del Lenguaje Natural (PNL): La tokenización es fundamental para casi todas las tareas de PNL.
- Traducción automática: Servicios como Google Translate tokenizan la frase de entrada en el idioma de origen, procesan estos tokens utilizando modelos complejos (a menudo basados en la arquitectura Transformer), y luego generan tokens en el idioma de destino, que finalmente se ensamblan en la frase traducida.
- Análisis de sentimiento: Para determinar si una reseña de un cliente es positiva o negativa, primero se tokeniza el texto. A continuación, el modelo analiza estos tokens para clasificar el sentimiento general. Más información sobre el análisis de sentimiento. Técnicas como el prompt tuning también se basan en la manipulación de secuencias de tokens. Para los desarrolladores, bibliotecas como spaCy y NLTK ofrecen potentes herramientas de tokenización.
Visión Artificial (CV): Aunque tradicionalmente se asocia con el PLN, el concepto se extiende a la visión artificial.
- Vision Transformers (ViT): En modelos como Vision Transformers (ViT), las imágenes se dividen en parches de tamaño fijo. Como se explica en el artículo de investigación original de ViT, estos parches se tratan como 'tokens visuales' y se aplanan en secuencias. Estas secuencias luego se introducen en una red Transformer, que utiliza mecanismos como la autoatención para comprender las relaciones entre diferentes partes de la imagen. Esto permite tareas como la clasificación de imágenes y la detección de objetos.
- Modelos multimodales: Modelos como CLIP y YOLO-World unen la visión y el lenguaje procesando tanto tokens de texto como tokens visuales para realizar tareas como la detección de objetos zero-shot. Del mismo modo, los modelos avanzados de segmentación de imágenes como el Segment Anything Model (SAM) también utilizan conceptos similares a los tokens.

Métodos Comunes de Tokenización

Existen diferentes estrategias para tokenizar datos, cada una con sus propias ventajas e inconvenientes. La elección del método puede afectar significativamente al rendimiento del modelo.

Tokenización Basada en Palabras: Este método divide el texto basándose en espacios y signos de puntuación. Aunque es simple e intuitivo, tiene problemas con vocabularios grandes y palabras "fuera del vocabulario" (palabras no vistas durante el entrenamiento).
Tokenización basada en caracteres: Este método divide el texto en caracteres individuales. Resuelve el problema de las palabras fuera del vocabulario, pero puede resultar en secuencias muy largas que pierden el significado semántico de alto nivel, lo que dificulta que los modelos aprendan las relaciones entre las palabras.
Tokenización de Subpalabras: Este es un enfoque híbrido que se ha convertido en el estándar para los modelos modernos de PNL. Divide las palabras en subunidades más pequeñas y significativas. Las palabras comunes permanecen como tokens únicos, mientras que las palabras raras se dividen en múltiples tokens de subpalabras. Este método maneja eficientemente palabras complejas y evita el problema de fuera de vocabulario. Los algoritmos populares incluyen Byte Pair Encoding (BPE) y WordPiece, que se utilizan en modelos como BERT y GPT.

Tokenización vs. Tokens

Es importante distinguir entre 'Tokenización' y un 'Token'.

Tokenización: Se refiere al proceso de descomposición de los datos en unidades más pequeñas. Es un paso de preprocesamiento que es fundamental para cómo funcionan los modelos de lenguaje.
Token: Se refiere al resultado del proceso de tokenización – la unidad individual (palabra, subpalabra, carácter o parche de imagen) que procesa el modelo.

Comprender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y el entrenamiento de modelos a menudo involucran plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y entrenamiento de modelos. A medida que la IA evoluciona, los métodos de tokenización continúan adaptándose, desempeñando un papel clave en la construcción de modelos más sofisticados para tareas que van desde la generación de texto hasta la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.

Tokenización

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Relevancia y aplicaciones en el mundo real

Métodos Comunes de Tokenización

Tokenización vs. Tokens

Leer más en esta categoría

Implantar modelos YOLO de Ultralytics mediante la integración de ExecuTorch

Lo más destacado de Ultralytics en la Conferencia PyTorch 2025

Aprendizaje autosupervisado para eliminar el ruido de las imágenes

Únete a la comunidad de Ultralytics