Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Tokenización

¡Descubra el poder de la tokenización en PNL y ML! Aprenda cómo la división del texto en tokens mejora las tareas de IA como el análisis de sentimientos y la generación de texto.

La tokenización es el proceso fundamental de descomponer un flujo de datos, como texto sin procesar o una imagen, en unidades discretas más pequeñas llamadas tokens. Este es un primer paso crítico en el pipeline de preprocesamiento de datos para casi todos los sistemas de Inteligencia Artificial (IA). Al convertir los datos no estructurados en un formato estandarizado, la tokenización permite a los modelos de aprendizaje automático interpretar, analizar y aprender patrones de forma eficaz. Sin este paso, la mayoría de los modelos no podrían procesar los vastos y variados datos que impulsan las aplicaciones modernas de IA.

Relevancia y aplicaciones en el mundo real

La tokenización es crucial porque la mayoría de las arquitecturas de aprendizaje profundo requieren entradas numéricas en lugar de texto o píxeles sin procesar. Al convertir los datos en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como embeddings. Estos vectores numéricos capturan el significado semántico y las relaciones, lo que permite a los modelos construidos con frameworks como PyTorch o TensorFlow aprender de los datos. Este paso fundamental sustenta numerosas aplicaciones de IA:

  1. Procesamiento del Lenguaje Natural (PNL): La tokenización es fundamental para casi todas las tareas de PNL.

    • Traducción automática: Servicios como Google Translate tokenizan la frase de entrada en el idioma de origen, procesan estos tokens utilizando modelos complejos (a menudo basados en la arquitectura Transformer), y luego generan tokens en el idioma de destino, que finalmente se ensamblan en la frase traducida.
    • Análisis de sentimiento: Para determinar si una reseña de un cliente es positiva o negativa, primero se tokeniza el texto. A continuación, el modelo analiza estos tokens para clasificar el sentimiento general. Más información sobre el análisis de sentimiento. Técnicas como el prompt tuning también se basan en la manipulación de secuencias de tokens. Para los desarrolladores, bibliotecas como spaCy y NLTK ofrecen potentes herramientas de tokenización.
  2. Visión Artificial (CV): Aunque tradicionalmente se asocia con el PLN, el concepto se extiende a la visión artificial.

Métodos Comunes de Tokenización

Existen diferentes estrategias para tokenizar datos, cada una con sus propias ventajas e inconvenientes. La elección del método puede afectar significativamente al rendimiento del modelo.

  • Tokenización Basada en Palabras: Este método divide el texto basándose en espacios y signos de puntuación. Aunque es simple e intuitivo, tiene problemas con vocabularios grandes y palabras "fuera del vocabulario" (palabras no vistas durante el entrenamiento).
  • Tokenización basada en caracteres: Este método divide el texto en caracteres individuales. Resuelve el problema de las palabras fuera del vocabulario, pero puede resultar en secuencias muy largas que pierden el significado semántico de alto nivel, lo que dificulta que los modelos aprendan las relaciones entre las palabras.
  • Tokenización de Subpalabras: Este es un enfoque híbrido que se ha convertido en el estándar para los modelos modernos de PNL. Divide las palabras en subunidades más pequeñas y significativas. Las palabras comunes permanecen como tokens únicos, mientras que las palabras raras se dividen en múltiples tokens de subpalabras. Este método maneja eficientemente palabras complejas y evita el problema de fuera de vocabulario. Los algoritmos populares incluyen Byte Pair Encoding (BPE) y WordPiece, que se utilizan en modelos como BERT y GPT.

Tokenización vs. Tokens

Es importante distinguir entre 'Tokenización' y un 'Token'.

  • Tokenización: Se refiere al proceso de descomposición de los datos en unidades más pequeñas. Es un paso de preprocesamiento que es fundamental para cómo funcionan los modelos de lenguaje.
  • Token: Se refiere al resultado del proceso de tokenización – la unidad individual (palabra, subpalabra, carácter o parche de imagen) que procesa el modelo.

Comprender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y el entrenamiento de modelos a menudo involucran plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y entrenamiento de modelos. A medida que la IA evoluciona, los métodos de tokenización continúan adaptándose, desempeñando un papel clave en la construcción de modelos más sofisticados para tareas que van desde la generación de texto hasta la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles