Glosario

Tokenización

Descubra el poder de la tokenización en PLN y ML. Descubra cómo la división del texto en tokens mejora tareas de IA como el análisis de sentimientos y la generación de texto.

La tokenización es el proceso fundamental de descomponer un flujo de datos, como un texto sin procesar o una imagen, en unidades más pequeñas y discretas llamadas tokens. Se trata de un primer paso fundamental en el proceso de preprocesamiento de datos de casi todos los sistemas de Inteligencia Artificial (IA). Al convertir los datos no estructurados en un formato estandarizado, la tokenización permite a los modelos de aprendizaje automático interpretar, analizar y aprender patrones de forma eficaz. Sin este paso, la mayoría de los modelos serían incapaces de procesar los enormes y variados datos que alimentan las modernas aplicaciones de IA.

Pertinencia y aplicaciones reales

La tokenización es crucial porque la mayoría de las arquitecturas de aprendizaje profundo requieren datos numéricos en lugar de texto o píxeles en bruto. Al convertir los datos en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como las incrustaciones. Estos vectores numéricos capturan el significado semántico y las relaciones, lo que permite a los modelos construidos con marcos como PyTorch o TensorFlow aprender de los datos. Este paso fundamental es la base de numerosas aplicaciones de IA:

  1. Procesamiento del Lenguaje Natural (PLN): La tokenización es fundamental en casi todas las tareas de PLN.

    • Traducción automática: Servicios como Google Translate tokenizan la frase de entrada en el idioma de origen, procesan estos tokens utilizando modelos complejos (a menudo basados en la arquitectura Transformer ) y, a continuación, generan tokens en el idioma de destino, que finalmente se ensamblan en la frase traducida.
    • Análisis de sentimiento: Para determinar si una opinión de un cliente es positiva o negativa, primero se asignan tokens al texto. A continuación, el modelo analiza estos tokens para clasificar el sentimiento general. Más información sobre el Análisis de Sentimiento. Técnicas como la sintonización de avisos también se basan en la manipulación de secuencias de tokens. Para los desarrolladores, bibliotecas como spaCy y NLTK ofrecen potentes herramientas de tokenización.
  2. Visión por ordenador (CV): Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la visión por ordenador.

Métodos comunes de tokenización

Existen diferentes estrategias para tokenizar los datos, cada una con sus propias ventajas y desventajas. La elección del método puede afectar significativamente al rendimiento del modelo.

  • Tokenización basada en palabras: Este método divide el texto en función de los espacios y la puntuación. Aunque es sencillo e intuitivo, tiene dificultades con los vocabularios extensos y las palabras "fuera de vocabulario" (palabras no vistas durante el entrenamiento).
  • Tokenización basada en caracteres: Este método divide el texto en caracteres individuales. Resuelve el problema de la falta de vocabulario, pero puede dar lugar a secuencias muy largas que pierden el significado semántico de alto nivel, lo que dificulta que los modelos aprendan las relaciones entre las palabras.
  • Tokenización de subpalabras: Se trata de un enfoque híbrido que se ha convertido en el estándar de los modelos modernos de PNL. Divide las palabras en subunidades más pequeñas y significativas. Las palabras comunes permanecen como tokens únicos, mientras que las raras se dividen en múltiples tokens de subpalabras. Este método es eficaz con las palabras complejas y evita el problema de la falta de vocabulario. Entre los algoritmos más conocidos están Byte Pair Encoding (BPE) y WordPiece, que se utilizan en modelos como BERT y GPT.

Tokenización vs. Tokens

Es importante distinguir entre "Tokenización" y"Token".

  • Tokenización: Se refiere al proceso de descomponer los datos en unidades más pequeñas. Es un paso de preprocesamiento fundamental para el funcionamiento de los modelos lingüísticos.
  • Ficha: Se refiere al resultado del proceso de tokenización: la unidad individual (palabra, subpalabra, carácter o fragmento de imagen) que procesa el modelo.

Entender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y modelos de formación a menudo implica plataformas como Ultralytics HUB, que ayudan a agilizar el preprocesamiento de datos y los flujos de trabajo de formación de modelos. A medida que evoluciona la IA, los métodos de tokenización siguen adaptándose, desempeñando un papel clave en la creación de modelos más sofisticados para tareas que van desde la generación de texto hasta la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles